基于 Python 3.7， 快 速 掌握 大 数据 编程 工具 
e 针对 想 直接 切入 Python 3 及 网 络 丰 虫 编程 的 读者 

e 学 习 过 程 中 贯穿 大 小 示例 ， 方 便 读者 对 知识 点 做 编程 实践 数据 
e 胞 中 与 Scrapy 胞 虫 框架 实战 ， 提 高 你 的 综合 编程 能 力 i 
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吧 
中 


了 Python 如 何 用 来 获取 网 上 的 数据 ? 

如 何 分 状 Python 2.X 和 了 Python 3.X? 

如 何 选择 适合 自己 的 Python 版 本 ? 

学 习 Python 用 什么 工具 ? 

用 Windows 系统 还 是 Linux 系统 ? 

人 工 智能 这 么 火 ， 零 基础 能 学 Python 吗 ? 
如 何 用 一 本 书 学 会 Python 与 网 络 疏 虫 ? 


随 着 Python 语言 的 普及 ， 越 来 越 多 非 计算 机 专业 的 人 们 开始 学 习 它 ， 而 面 对 Python 越 来 
越 复 杂 的 功能 ， 小 白 读者 比较 迷茫 ， 如 何 学 ? 怎么 学 ? 本 书 由 浅 入 深 ， 由 理论 到 实践 ， 尤 其 适 
合 初级 读者 逐步 学 习 和 完善 自己 的 Python 知识 结构 ， 最 终 具 备 自 学 Python 编码 的 能 力 。 本 书 
也 适合 需要 快速 切入 Python 编程 语言 的 技术 人 员 。 


本 书 特色 


1. 完全 零 基础 入 门 ， 不 需要 任何 前 置 知识 
针对 入 门 读者 ， 将 概念 通俗 化 地 解释 出 来 ， 针 对 Python 语法 ， 采 用 小 示例 代码 演示 的 讲 
解 方式 ， 让 读者 演练 结合 ， 没 有 长 篇 大 论 ， 无 须 计算 机 系统 基础 ， 完 全 零 基 础 入 门 。 


2. 代码 格式 统一 ， 讲 解 规范 

书 中 尽 可 能 为 每 个 语法 都 提供 代码 演示 , 复杂 内 容 提供 详细 流程 。 这样 使 得 读者 可 以 很 清 
晰 地 知道 每 个 技术 的 具体 实现 步骤 ， 从 而 提高 学 习 的 效率 。 

3 循序渐进， 由浅 入 深 

从 Python 安装 到 编辑 器 的 使 用 ， 到 第 一 个 Python 程序 ， 读 者 每 个 概念 每 一 步 都 可 以 明明 
白白 ， 中 间 没 有 任何 门槛 ， 技 术 都 是 平滑 过 渡 ， 也 非常 适合 自学 Python。 


本 书 内 容 


第 1 章 介绍 Python 的 历史 ， 了 解 Python 2.X 和 了 Python 3.X 的 区 别 ， 了 解 Python 3.7 的 变 
化 ， 然 后 搭建 Python 开发 环境 ， 选 择 Python 代码 编辑 器 ， 并 最 终 实现 第 一 个 Python 程序 。 


第 2 章 简要 介绍 Python 语言 的 一 些 基 础 知识 , 让 读者 对 学 习 一 门 语言 有 一 个 概要 的 了 解 ， 
为 后 面 学 习 具 体 的 语法 铺路 。 

第 3 章 介 绍 Python 语言 的 内 置 类 型 ， 包 括 简单 类 型 、 常 量 类 型 、 序 列 、 列 表 、 元 组 、 字 
符 串 、 字 典 、 集 合 等 ， 这 些 是 一 门 开 发 语言 的 基础 ， 正 是 它们 构成 了 程序 代码 的 最 小 单元 。 

第 4 章 介 绍 流程 控制 和 函数 。 它们 可 以 帮助 我 们 更 好 地 管理 代码 , 比如 有 些 重复 代码 就 可 
以 放 在 一 个 函数 中 ， 这 样 每 次 只 需 调用 函数 ， 无 须 重复 编码 。 

第 5 章 介 绍 类 和 对 象 。Python 中 一 切 皆 为 对 象 ， 所 以 了 解 本 章 就 能 更 透彻 地 了 解 Python 
语言 的 基础 。 看 完 本 章 ， 读 者 就 能 看 懂 一 点 Python 的 源码 了 。 

第 6 章 介绍 在 Python 中 如 何 处 理 异 常 。 如 果 要 让 自己 的 代码 更 安全 更 健壮 ， 就 必须 学 会 
异常 的 处 理 ， 这 样 当 程序 出 错时 可 以 更 好 地 引导 程序 完成 ， 而 不 是 中 断 。 

第 7 章 介 绍 模块 和 包 。 很 多 人 可 能 已 经 知道 Python 的 包 和 模块 多 如 牛 毛 ， 那 么 该 如 何 导 
入 别人 的 包 、 如 何 创建 自己 的 包 呢 ? 学 会 本 章 ， 能 让 我 们 看 到 更 多 Python 应 用 的 可 能 性 。 

第 8 章 介 绍 元 类 和 新 型 类 。 本 章 会 提 及 很 多 Python 2X 和 3.X 的 区 别 , 让 读者 了 解 Python 
中 类 的 进化 ， 这 样 就 能 进一步 熟悉 Python 源码 了 。 

第 9 章 介 绍 Python 友 代 器 、 生 成 器 、 装 饰 器 的 内 容 。 这 些 内 容 有 一 定 的 难度 ， 但 非常 有 
外 ， 方 便 代码 的 封装 ， 能 让 代码 看 起 来 更 简洁 有 力 。 
第 10 章 介绍 多 线程 。 多 线程 的 场景 在 现实 中 非常 常见 ， 比 如 双 11 时 那么 多 人 同时 在 线 抢 

购 一 件 商品 ， 此 时 该 如 何 处 理 程 序 呢 ? 多 线程 的 作用 就 体现 出 来 了 。 

第 11 章 介 绍 文件 和 目录 。 虽 然 我 们 平时 的 计算 机 操作 中 经 常 和 文件 、 目 录 打 交道 ， 但 是 
如 何 移动 一 个 文件 、 如 何 添加 文件 的 内 容 都 需要 靠 代 码 和 函数 来 实现 。 

第 12 章 介 绍 正则 表达 式 。 针 对 零 基 础 读者 ， 本 章 详细 介绍 正则 应 用 的 概念 、 语 法 和 原理 ， 
并 演示 Python 中 正则 模块 的 各 种 用 法 。 

第 13 章 介绍 网 络 编程 。 我 们 都 经 常 上 网 ， 经 常 聊 天 ， 这 些 都 是 网 络 编程 的 功劳 。 本 章 不 
仅 介 绍 网 络 编程 的 一 些 基础 概念 ， 还 使 用 Python 实现 一 个 简单 的 聊天 案例 。 

第 14 章 介 绍 urllib 聆 虫 。 疏 虫 的 工具 很 多 ， 本 章 讲 解 的 并 不 复杂 ， 使 用 Python 自 带 的 urllib 
模块 ， 演 示 常 见 的 聆 虫 方法 ， 其 他 怜 虫 工具 其 实 也 是 基于 urllib 的 ， 学 会 了 它 ， 就 可 以 举一反三 。 

第 15 章 是 Beautiful Soup 疏 虫 实战 。 读 者 在 了 解 多 个 疏 虫 框架 的 同时 ， 能 发 现 Beautiful 
Soup 让 复杂 项 目 变 得 可 行 ， 新 手 入 门 更 喜欢 多 个 框架 并 行 研究 ， 找 到 适合 自己 的 框架 。 

第 16 章 是 Scrapy 疏 虫 实战 。 前 面 已 经 学 习 了 很 多 urllib 怜 虫 基础 ， 本 章 则 让 读者 了 解 如 
何 利 用 Scrapy 框架 简化 自己 的 爬 取 项 目 工作 。 
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代码 下 载 


本 书 示例 源 代 码 下载 地 址 可 以 通过 扫描 右边 的 二 维 码 获得 。 
如 果 下 载 有 问题 ， 或 者 对 本 书 有 什么 疑问 ， 请 联系 电子 邮箱 
booksaga@163.com， 邮 件 主 题 为 “Python 3.7 编程 快速 入 门 ”。 


本 书 读者 


Python 与 网 络 爬 虫 初学 者 
Python 网 络 疏 夹 开 发 人 员 

其 他 语言 转行 Python 的 程序 员 
高 等 院 校 和 培训 学 校 的 师 生 


本 书 第 1~12 章 由 平顶山 学 院 的 潘 中 强 著 、 第 13~16 章 由 薛 娩 著 。 
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了 Python 是 一 种 面向 对 象 的 解释 性 的 计算 机 程序 设计 语言 ， 也 是 一 种 功能 强大 而 完善 的 通 


用 型 语言 ， 已 经 具有 十 多 年 的 发 展 历史 ， 成 熟 且 稳 定 。Python 的 语法 简捷 而 清晰 ， 同 时 有 着 
丰富 和 强大 的 类 库 ， 可 以 满足 日 常 开发 方方面面 的 需求 。 
本 章 的 主要 内 容 是 : 


@ 从 整体 上 介绍 Python 语言 。 
@ 。 Python 语言 开发 环境 的 安装 。 
@ Python 3.X 的 特性 。 


了 .1 python 的 历史 


Python 的 创始 人 为 Guido van Rossum。1989 年 圣诞 节 期 间 ，Guido 为 了 打发 圣诞 节 的 无 
趣 ， 决 心 开 发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 的 一 种 继承 。 之 所 以 选中 Python (大 
蟒蛇 的 意思 ) 作为 程序 的 名 字 ， 是 因为 他 是 一 个 Monty Python 的 飞行 马戏 团 的 爱好 者 。 

ABC 是 由 Guido 参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优 
美和 强大 ， 是 专门 为 非 专业 程序 员 设计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认 
为 是 非 开 放 造 成 的 。Guido 决心 在 Python 中 避免 这 一 错误 〈 的 确 如 此 ，Python 与 其 他 的 语言 
如 C、C++ 和 Java 结合 得 非常 好 ) 。 同 时 ， 他 还 想 实 现在 ABC 中 闪现 过 但 未 曾 实现 的 东西 。 

就 这 样 ，Python 在 Guido 手中 诞生 了 。 实 际 上 ， 第 一 个 实现 是 在 Mac 机 上 。 可 以 说 ， 
Python 是 从 ABC 发 展 起 来 的 ， 主 要 受到 了 Modula-3 〈 一 种 相当 优美 且 强 大 的 语言 ， 为 小 型 
团体 所 设计 的 ) 的 影响 ， 并 且 结 合 了 UNIX 和 C 的 习惯 。 

虽然 Python 在 国内 受 关 注 也 只 是 近 几 年 的 事情 ， 但 是 在 计算 机 语言 里 面 ，Python 可 以 算 
是 历史 悠久 的 语言 。Python 有 着 近 20 年 的 历史 ， 版 本 的 推进 相当 稳健 ， 事 实 上 Python 历史 
比 Java 更 悠久 ， 后 者 是 在 1991 年 被 设计 出 来 的 〈 当 时 名 叫 oak) ， 而 真正 以 Java 这 个 名 字 
闻名 于 世 则 是 在 1995 年 。 


1 。 乙 ”为 什么 使 用 Python 


Python 支持 面向 过 程 、 面 向 对 象 、 函 数 式 编程 以 及 其 他 编程 风格 ， 简 洁 而 极 具 表 达 力 的 
语法 和 丰富 而 实用 的 组 件 ， 能 让 我 们 事半功倍 地 完成 任务 。Python 的 开发 效率 要 比 Java、 
C/C++ 高 出 好 几 倍 。 有 一 个 比较 有 意义 的 比较 例子 是 在 C、Java 和 Python 三 种 语言 之 间 进 行 
的 ， 目 标 是 开发 符合 SSH (Secure Shell) 服务 端 协议 的 软件 包 。 


@@ C 语言 : OpenSSH， 直 接 基于 UNIX 系统 服务 ， 从 1999 年 开始 开发 ，4 年 之 后 共有 
64 000 行 C 源 代码 。2003 年 时 ， 开 发 者 列表 上 共有 84 人 ， 平 均 每 人 写 了 762 行 代 
码 ， 也 就 是 190.5 行 /人 年 。 

@ Java 语言; J2SSE， 基 于 Java 1.3 Standard 版 提供 的 API， 从 2002 年 初 开始 开发 ， 
由 SUN 官方 支持 ，2003 年 拥有 20 000 行 Java 源 代码 ， 开 发 者 共 7 人， 平均 每 人 
2857 行 代码 ， 即 1 428.5 行 /人 年 。 

@ Python 语言 : Conch， 基 于 Twisted Framework， 项 目 起 点 时 间 不 详 ， 大 致 为 2002 
年 中 ， 到 2003 年 共有 5 000 行 源 代码 ， 开 发 者 为 1 人 ， 约 4000~5 000 行 /人 年 。 


有 人 根据 上 面 的 案例 推算 ，C、Java 和 Python 的 开发 效率 应 该 为 1:4:10。Java 是 否 可 以 
比 C 语言 高 出 4 倍 的 开发 效率 ， 还 是 颇 值得 怀疑 的 。 然 而 Python 比 C/C++ 和 Java 这 样 的 静 
态 语言 高 出 几 倍 效力 却 是 不 争 的 事实 。 

值得 一 提 的 是 ， 在 Twisted 网 站 官方 文档 上 说 ，Conch 的 运行 时 性 能 并 不 逊色 于 
OpenSSH。 在 同一 台 计 算 机 上 ，OpenSSH 每 秒 钟 可 接纳 3 个 连接 ， 传 输 速度 为 7.4MB/s。 纯 
Python 实现 的 Conch 每 秒 钟 可 接纳 8 个 连接 ， 传 输 速度 为 3MB/s。 经 过 Psyco 编译 优化 后 ， 
每 秒 钟 可 接纳 11 个 连接 ， 传 输 速度 为 8.1MB/s。 

不 只 是 开发 效率 ，Python 帮助 程序 员 更 关注 问题 的 本 质 ， 而 不 用 担心 语言 的 细节 ， 不 需 
要 担心 内 存 泄漏 、 意 外 中 断 。 对 于 C/C++、Java 程序 员 来 说 ，Python 是 很 好 的 原型 开发 工 
具 ， 可 以 快速 地 实现 大 脑 中 的 想法 ， 在 Python 做 出 原型 之 后 再 使 用 Java， 或 者 C/C++ 对 性 能 
需要 提高 的 部 分 进行 改造 。 


地” 搭建 Python 开发 环境 


在 开始 讨论 Python 之 前 ， 必 须要 在 计算 机 上 运行 Python， 这 对 学 习 它 是 非常 有 益 的 。 这 
样 读者 就 可 以 一 边 学 习 一 边 运行 案例 代码 了 。 


1.3.1 安装 Python 
Python 的 安装 非常 简单 ， 直 接 从 官方 网 站 下 载 Python 的 安装 程序 。www.python.org 提供 


了 不 同 的 操作 系统 上 的 Python 安装 包 ， 为 UNIX、Mac OS X 提供 了 源码 安装 包 ， 而 对 于 
Windows 操作 系统 则 提供 二 进 制 安装 包 (exe 版 本 ) 。 

读者 可 以 按照 自己 的 操作 系统 下 载 相应 的 版 本 ， 对 于 Windows 和 Linux， 可 以 分 别 下 载 
己 经 编译 好 的 二 进 制 编译 版 本 ， 然 后 在 操作 系统 里 运行 安装 程序 就 可 以 安装 到 电脑 中 。 

因为 Python 是 一 个 开发 的 源 代 码 的 项 目 ， 所 以 可 以 下 载 Python 的 源 代码 到 自己 机 器 上 
编译 ， 与 使 用 二 进 制 的 发 行 版 相 比 ， 这 种 方式 给 予 了 对 安装 选项 更 多 的 控制 。 对 于 需要 在 
UNIX、Mac OS XX 操作 系统 安装 Python 的 读者 来 说 ， 尽 量 使 用 这 种 安装 方式 。 


1 . Windows 下 的 直接 安装 
一 般 初 学 者 会 选择 这 种 直接 安装 方式 ， 这 里 给 出 详细 步骤 。 


(1) 打开 https://www.python.org/downloads/ 官 网 ， 在 首页 就 可 以 看 到 下 载 项 ， 如 图 1.1 
所 示 。 


ll 


python 


About Downloads Documentation Community 


图 1.1 官网 下 载 


(2) 这 里 我 们 要 根据 自己 的 操作 系统 来 选择 ， 单 击 Windows 连接 进入 具体 的 安装 包 下 
载 界面 。Windows 版 本 包括 32 位 和 64 位 ， 根 据 自己 的 机 器 进行 选择 。 


Python Releases for Windows 


图 1.2 选择 版 本 


(3) 下 载 后 的 文件 名 是 python-3.7.0.exe， 若 是 64 位 系统 则 下 载 后 的 文件 名 为 python- 
3.7.0-amd64.exe。 直 接 双击 安装 文件 ， 安 装 首页 如 图 1.3 所 示 。 在 首页 中 勾 选 And Python 3.7 
to PATH 复 选 框 ， 这 样 安装 后 就 不 需要 再 设置 Python 的 执行 路 径 。 


应 pahon370 bg Setup = x 


Install Python 3.7.0 (64-bit) 
Select Install Now to install Python with default settings or choose 
Customize to enable or disable features. 


一 Install Now 
CAUsers\inaAppData\Local\programe\Python\pythen37 
Includes IDLE, pip and documentation 


Creates shortcuts and file assor 


一 Customize installation 


Choose location and features 
2 Install auncher for all users (recommended) 
windows 回 AddPyhon37 to PATH Cancel 


图 1.3 安装 首页 


(4) 单 击 Install Now 进行 安装 ， 安 装 速度 很 快 ， 不 需要 做 任何 其 他 操作 ， 安 装 完成 的 
界面 如 图 1.4 所 示 ， 非 常 简单 。 


| python 37.0 (54-bi Setup = We 
Setup was successful 


Speaal thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 


still be Python for DOS. 
a New to Pythen? Start with the online tutorial ond 
documentaton. 


See what's new in this release. 


pyth 
windows Glose 


图 1.4 完成 页 面 


(5) 单 击 Close 按钮 ， 此 时 在 开始 菜单 会 添加 如 图 1.5 所 示 的 菜单 项 。 这 里 有 4 项 内 
容 ， 分 别 是 : 


IDLE (Python 3.7 64-bit ) : 官方 自 带 的 Python 集成 开发 环境 。 
Python 3.7 ( 64-bit ) : 我 们 常 说 的 Python 终端 。 

Python 3.7 Manuals ( 64-bit ) : CHM 版 本 的 Python 3.7 官方 使 用 文档 。 
Python 3.7 Module Docs ( 64-bit ) : 模块 速 查 文档 ， 有 网 页 版 本 。 


BB Python 37 


is IDLE (Python 3.7 64-bit) 
py 


Python 3.7 (64-bit) 
E 
ER, Python 3.7 Module Docs (64-bit) 
] 


Python 3.7 Manuals (64-bit) 


图 1.5 Python 的 菜单 项 


(6) 安装 后 ， 打 开 操 作 系 统 的 “高 级 系统 设置 | 高 级 | 环境 变量 | 用 户 变量 |path”， 会 看 到 
默认 已 经 设置 好 了 Python 的 路 径 ， 如 图 1.6 所 示 。 


变量 值 
OneDrive CAUsers\tina\OneDrive 
TEMP CUsers\tinaAppData\Loca\Temp 
TMP CAUsers\tinaAppData\Loca\Temp 
新 建 (N).… 篇 强 (E).… 删除 (D) 


图 1.6 Python 路 径 


2 . 下 载 源码 的 安装 方式 
(1) 首先 从 官网 下 载 源 代码 ， 如 图 1.7 所 示 。 目 前 Python 最 新 的 版 本 为 3.7.0， 所 以 进 
入 源码 页 面 后 选择 Python 3.7.0。 


2 python 


About Downloads 


All releases 


Source code 


Python 3 waas 


MacOSX 
Release Date: 2018. 

Other Platforms 
Python 3.7.0is the nev 

License 


图 1.7 选择 源码 
(2) 选择 版 本 后 ， 进 入 具体 文件 选择 页 面 ， 如 图 1.8 所 示 。 


Files 


Version Operating System 


Gzipped source tarball Source release 
XZ compressed source tarball Source release 


图 1.8 选择 具体 文件 

在 官网 上 ， 一 般 提 供 了 两 种 压缩 格式 的 代码 包 : 

®@ Gzipped source tarball: tgz 格式 ， 在 UNIX 下 用 tar 和 gunzip 压缩 的 文件 。 

®@ XZ compressed source tarball: tar.xz 格式 ， 这 是 Linux 下 用 XZ 压缩 的 文件 ，XZ 是 

一 个 免费 的 软件 ， 是 压缩 软件 中 最 新 的 压缩 率 之 王 。 

对 于 tgz 格式 ， 我 们 可 以 使 用 下 面 的 步骤 解压 : 

%tar xzf Python-3.7.0.tgz 

对 于 bz2 格式 ， 我 们 可 以 使 用 下 面 的 步骤 解压 : 

%xz -d Python-3.7.0.tar.xz 

%tar xvf Python-3.7.0.tar 

(3) 安装 Python 的 源 代码 树 到 python/ 子 目录 中 。 在 目录 里 可 以 找到 README 文件 ， 
它 详细 解释 了 安装 的 过 程 。 总 的 来 说 ， 和 编译 其 他 开发 源 代码 程序 所 使 用 的 命令 相同 ， 也 使 
这 些 命令 : ./configure、make、make test、make install。 一 般 先 运 行 ./configure， 通 常 该 命 
令 后 需要 带 具 体 的 参数 (参数 参考 README 文档 ) ，configure 运行 结束 以 后 ， 可 以 运行 
make 编译 源 代码 ， 然 后 make test 编译 测试 文件 ， 最 后 使 用 make install 完成 安装 。 

当然 读者 也 可 以 在 Windows 下 编译 Python， 可 以 使 用 Cygwin 这 样 的 POSIX 模拟 环境 ， 


si 


也 可 以 使 用 VC++ 编 译 器 ， 详 细 的 情况 可 以 参考 Win32 目录 下 的 README。 


1.3.2 ”运行 Python 
和 编译 式 语言 不 同 ， 可 以 有 两 种 方式 运行 Python: 
@ ”以 交互 的 方式 输入 代码 直接 运行 。 
@。” 先 创建 程序 文件 ， 再 运行 。 


以 交互 方式 运行 代码 是 体验 Python 最 快 的 方式 ， 很 适合 学 习 Python 时 使 用 ， 但 是 一 般 
情况 下 都 是 创建 程序 文件 ， 直 接 运 行程 序 文件 的 。 


1. 以 交互 方式 运行 Python 

@@ 在 Windows 系统 下 ， 在 系统 菜单 下 单 击 Python 菜单 下 的 IDLE， 或 者 直接 打开 cmd 
窗口 ， 输 入 “python” 命 令 。 

@@ 在 UNIX 操作 系统 下 ， 只 需要 在 shell 中 输入 “python” 命 令 就 可 以 了 。 


以 Windows 为 例 ， 运 行 Python 的 方式 如 图 1.9 所 示 。 
python 37.0 shell - oO x| 
File Edit Shell Debug Options Window Help 


Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59 
51) DISC V.1914 64 bit (CD64) on win32 


Type “copyright”, “credits” or “license()” for more 
onation: 
[加 CAWINDOWS\system32\cmd.exe - python 一 口 X 
icrosoft Windows [版 本 10. 0. 17134. 167] 
(c) 2018 Microsoft Corporation。 保 留 所 有 权利 。 
IDEL 
\Users\tina>python 
thon 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:5 
[MSC v. 1914 64 bit (AND64)] on win32, 
a “help”, “copyright”, “credits” or “license” for 
re information. 
cmd 
v 
图 1.9 运行 Python 
2. Python 程序 


在 Windows 下 ，Python 脚本 和 其 他 程序 一 样 双击 运行 。 当 然 ， 也 可 以 在 cmd 窗口 中 输 
入 程序 名 字 运 行 ， 例 如 : 


python test.py 


在 UNIX 或 者 Linux 下 ， 可 以 在 shell 下 ， 使 用 python+python 程序 文件 名 运行 。 例 如 ， 
一 个 Python 的 程序 名 是 testpy， 那 么 我 们 可 以 用 以 下 方式 运行 : 


%python test.py 
chmod 命令 将 testpy 设置 为 可 执行 ， 就 可 以 将 其 作为 可 执行 程序 来 运行 。 


$$./test.py 


一 般 Linux 发 行 版 本 已 经 默认 安装 了 Python， 如 需 Python 3.7.0， 需 要 将 默认 安装 的 
Python 删除 后 重新 安装 。 : 


1.3.3 选择 Python IDE 


IDE 的 全 称 是 Integration Development Environment (集成 开发 环境 ) ， 一 般 以 代码 编辑 
器 为 核心 ， 包 括 一 系列 周边 组 件 和 附属 功能 。 一 个 优秀 的 IDE， 最 重要 的 就 是 在 普通 文本 编 
辑 之 外 提供 针对 特定 语言 的 各 种 快捷 编辑 功能 ， 让 程序 员 尽 可 能 快捷 、 舒 适 、 清 晰 地 浏览 、 
输入 、 修 改 代码 。 对 于 一 个 现代 的 IDE 来 说 ,语法 着 色 、 错 误 提 示 、 代 码 折合 、 代 码 完 成 、 
代码 块 定位 、 重 构 、 调 试 器 、 版 本 控制 系统 VCS) 的 集成 等 都 是 重要 的 功能 。 

IDE 是 用 来 帮助 程序 员 编 程 的 工具 ， 一 个 良好 的 IDE 能 够 大 大 地 提高 程序 员 的 开发 效 
率 。Python 的 IDE 种 类 繁多 ， 下 面 对 常 用 的 IDE 进行 介绍 ， 不 过 建议 本 书 读者 尝试 和 掌握 
IDLE 与 PyCharm 两 种 常用 的 IDE。 

于 人 LE 

IDLE 是 Python 标准 发 行 版 内 置 的 一 个 简单 小 巧 的 IDE， 包 括 交 互 式 命令 行 、 编 辑 器 、 
调试 器 等 基本 组 件 ， 足 以 应 付 大 多 数 简单 应 用 。IDLE 是 用 纯 Python 基于 Tkinter 编写 的 ， 最 
初 的 作者 正 是 Python 之 父 Guido van Rossum 本 人 。IDLE 除了 启动 速度 慢 之 外 ， 功 能 太 少 也 
是 一 个 很 大 的 缺点 ， 对 于 大 型 程序 的 开发 不 是 非常 方便 。 


形 界面 接口 。 


本 书 中 一 些 简单 的 代码 都 会 在 IDLE 中 运行 ， 以 >>> 开 头 ， 如 图 1.10 所 示 。 读 者 也 可 以 
不 安装 其 他 软件 ， 使 用 这 个 简单 的 IDLE。 


芍 python 3.7.0 Shell 一 口 4 
File Edit Shell Debug Options Window Help 


Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018，04: 59:51) [DISC v.1914 64 
bit (AMD64)] on,win32 
了 9 “copyright”, “credits” or “license()” for more infornation. 


ln:3 Col:4 


图 1.10 IDLE 


如 果 是 比较 长 的 代码 ， 就 单 击 File[INew File 菜单 打开 编辑 器 ， 如 图 1.11 所 示 。 编 辑 后 的 
代码 ， 可 以 按 Fs 键 运行 〈 前 提 是 需要 先 保存 文件 ) 。 


[人 testl.py - ENtest1.py (3.7.0) 一 口 x 


File Edit Format Run Options Window Help 
def printok (a): 
1f a==0 


print (” ok”) 
for i in range(5) 
print (“ok”) 


def la 
ja 
te ok”) 


for i in ge 5): 
Print (ok ) 


Ln:1 Col:0 


图 1.11 编辑 代码 


2.PyCharm 

PyCharm 是 一 种 Python IDE， 带 有 一 整套 可 以 帮助 用 户 在 使 用 Python 语言 开发 时 提高 其 
效率 的 工具 ， 比 加油 试 、 语法 高 亮 、Project 管理 、 代 码 跳 转 、 智 能 提示 、 自 动 完成 、 单 元 测 
试 、 版 本 控制 。 此 外 ， 该 IDE 提供 了 一 些 高 级 功能 ， 以 用 于 支持 Django 框架 下 的 专业 Web 
开发 。 

3.PythonWin 

PythonWin 是 Python Win32 Extensions〈 半 官方 性 质 的 Python for Win32 增强 包 ) 的 一 部 
分 ， 也 包含 在 ActivePython 的 Windows 发 行 版 中 。 如 其 名 字 所 言 ， 只 针对 Win32 平台 。 

总 体 来 说 ，PythonWin 是 一 个 增强 版 的 IDLE， 尤 其 是 易 用 性 方面 (就 像 Windows 本 身 
的 风格 一 样 ) 。 除 了 易 用 性 和 稳定 性 之 外 ， 简 单 的 代码 完成 和 更 强 的 调试 器 都 是 相对 于 
IDLE 的 明显 优势 。 


4.Emacs 和 Vim 


这 两 个 都 是 UNIX/Linux 下 的 著名 工具 ， 并 且 号 称 是 这 个 星球 上 最 强大 (以 及 第 二 强 
大 ) 的 文本 编辑 器 。 这 两 个 工具 ， 学 习 曲 线 都 比较 陡峭 ， 并 且 设 计 理 念 是 大 量 使 用 快捷 键 带 
来 最 大 的 便利 ， 对 于 习惯 于 Windows 底下 GUI (图 形 用 户 界面 ，Graphical User Interface) 操 
作 的 人 来 说 ， 使 用 不 太 习 惯 。 

5.VS Code & Atom 

VS Code 和 Atom 是 支持 全 平台 的 IDE， 它 们 自由 免费 ， 可 以 根据 需要 自行 定制 ， 可 以 
自由 添加 、 删 除 插件 ， 对 Python 的 支持 非常 好 。 它 们 是 目前 比较 流行 的 IDE， 但 成 也 萧何 败 
也 萧何 ， 就 是 太 自由 了 ， 对 初级 用 户 而 言 可 能 就 没有 那么 方便 了 。 

6.Eclipse + PyDev 

Eclipse 是 一 个 开放 源 代码 的 软件 开发 项 目 ， 专 注 于 为 高 度 集 成 的 工具 开发 提供 一 个 全 功 
能 的 、 具 有 商业 品质 的 工业 平台 。Eclipse 是 新 一 代 的 优秀 泛 用 型 IDE， 具 有 不 逊 于 Emacs 和 
Vim 的 可 扩展 性 ， 并 且 是 图 形 化 界面 ， 操 作 起 来 也 很 方便 。PyDev 是 Eclipse 上 的 Python 开 
发 插件 中 最 成 熟 完善 的 一 个 ， 而 且 还 在 持续 的 活跃 开发 中 。 除 了 Eclipse 平台 提供 的 基本 功能 


之 外 ，PyDev 的 代码 完成 、 语 法 查 错 、 调 试 器 、 重 构 等 功能 都 相当 出 色 ， 可 以 说 在 开源 产品 
中 是 最 为 强大 的 一 个 ， 许 多 贴心 的 小 功能 也 很 符合 编辑 习惯 ， 用 起 来 相当 顺手 。PyDev 更 新 
速度 很 快 ， 目 前 还 在 持续 更 新 当中 ， 缺 点 是 Eclipse 安装 和 配置 略为 麻烦 ， 运 行 起 来 速度 不 
快 ， 而 且 比 较 占 资源 。 

除了 以 上 那些 IDE 以 外 ， 还 有 其 他 商业 性 的 IDE 可 供 选 择 ， 比 如 说 WingIDE 一 一 
Wingware 公司 开发 的 商业 产品 ， 总 体 来 说 是 目前 最 为 强大 的 专业 Python IDE， 是 开源 项 目 ， 
可 以 申请 到 免费 的 license， 最 大 的 缺点 和 PyDev 一 样 ， 速 度 较 慢 ， 资 源 占用 多 。Komodo 是 
另 一 个 优秀 的 商业 产品 ， 由 ActiveState 公司 开发 ， 是 一 个 泛 用 的 脚本 语言 IDE， 除 了 Python 
外 还 支持 JavaScript、Perl、PHP、Ruby 等 多 种 语言 。 读 者 可 以 在 实践 中 选择 自己 喜欢 的 
IDE， 这 里 就 不 一 一 列举 了 。 

在 上 面 的 IDE 中 ，Eclipse + PyDev 比较 全 面 和 方便 ， 调 试 方式 也 和 VC++ 较 为 相似 。 对 
于 习惯 图 形 界面 调试 的 读者 ， 使 用 较为 方便 。 在 开发 大 型 的 Python 程序 的 时 候 ， 推 荐 读者 使 
用 。 


| .Cpython 语言 


Python 语言 最 大 的 一 个 特性 就 是 简洁 明了 ， 可 读 性 强 ， 但 并 不 是 说 Python 没有 Java、 
C、Ruby 那么 强大 ，Python 同样 拥有 像 Ruby 那样 动态 语言 强大 的 特性 。 本 节 叙 述 Python 的 
语言 特性 。 


1.4.1 Python 的 缩 进 


这 是 Python 语言 和 其 他 语言 非常 不 同 的 一 个 地 方 ，Python 使 用 缩 进 来 表示 程序 块 ， 而 不 
用 传统 的 大 括号 ， 或 者 用 begin...end 这 样 的 字符 来 表示 。 请 看 下 面 的 例子 1.1。 


例子 1.1 _ 缩 进 方式 比较 


01 // 以 下 是 c 语 言 
02 int fib(int a) 


03 

04 if (a==1| |a==2) 

05 { 

06 return 1; 

07 } 

08 else 

(4 

1 Teturn Ibta Ltib(a2)s 
和 } 

do 


14 # 以 下 是 Python 语言 
15 def fib(a) : 


16 if a==1 or a==2: 

dk return 1 

18 else: 

ew return fib (a-1)+fib (a-2) 


上 述 代码 中 ， 第 一 个 函数 是 C 语言 实现 的 (第 2~12 行 ) ， 它 的 程序 块 是 通过 大 括号 来 
表示 的 。 一 对 大 括号 ， 就 表示 一 个 程序 块 ， 而 一 个 程序 块 则 表示 C 语言 的 一 个 作用 域 。 第 
15~19 行 的 Python 则 通过 缩 进 〈 一 般 是 4 个 空格 或 者 一 个 Tab 键 ) 来 代替 大 括号 。 


作用 域 是 指 某 个 变量 有 效 的 区 域 ， 在 C 语言 中 ， 根 据 作 用 域 的 不 同 ， 变量 可 以 分 为 全 局 
变量 、 局 部 变量 等 
Python 用 缩 进 的 方式 来 表达 程序 块 ， 对 于 习惯 于 用 其 他 语言 的 读者 可 能 不 太 适 应 ， 但 是 
其 优点 还 是 很 明显 的 。 通 过 这 种 表达 方式 ，Python 程序 的 风格 比较 统一 ， 代 码 可 读 性 也 比较 
强 ， 同 时 省 去 了 敲 大 括号 或 者 begin...end 之 类 的 符号 。 
Python 通过 缩 进 的 层次 来 判断 程序 的 执行 顺序 和 逻辑 。 每 个 程序 块 和 程序 块 是 并 行 的 关 
系 还 是 包含 的 关系 ， 取 决 于 其 缩 进 的 空格 数 ， 如 例子 1.2 所 示 。 
例子 1.2 ”Python 缩 进 举例 


01 def printok(a): 


02 if a==0: 

03 print("or™y 

04 for i in range(5): 
05 Erint nor" 

06 

07 def Printokl (a): 

08 if a==0: 

09 Print"ok™y 

10 for i in range(5): 

ho Erintt "ok™y 


在 上 面 的 代码 中 ，printok 和 printokl 的 代码 不 同 的 是 for i in range(5) 前 面 的 空格 数 。 在 
printok 中 ， 第 4 行 的 for i in range(5) 多 了 四 个 空格 ， 所 以 它 就 属于 printok 程序 块 的 一 部 分 ， 
它 的 运行 必须 满足 a==0 这 个 条 件 ; 在 printokl 中 ， 第 10 行 的 for i in range(5) 的 空格 数 和 if 
a==0 是 一 样 的 ， 所 以 它们 是 并 行 关 系 ， 不 管 as 一 0 是 否 满足 ，for i in range(5) 都 会 运行 。 

需要 注意 的 是 ，Python 缩 进 要 使 用 Emacs 的 Python-mode 默认 值 : 4 个 空格 一 个 缩 进 层 
次 ， 永 远 不 要 混用 制 表 符 和 空格 。 最 流行 的 Python 缩 进 方式 是 仅 使 用 4 个 空格 ， 其 次 是 仅 使 
制 表 符 。 混 合 着 制 表 符 和 空格 缩 进 的 代码 将 被 转换 成 仅 使 用 空格 ， 这 就 可 能 会 造成 代码 的 
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缩 进 层次 混乱 。 缩 进 方式 不 


1.4.2 Python 的 序列 


Python 序 Mn Python 


(tuple) 、 


E 确 ， 也 是 初学 者 遇 到 的 最 常见 的 问题 。 


重要 的 语言 特性 之 一 。Python 含有 多 种 序列 、 列 表 、 元 组 
， 字 符 串 其 实 也 是 序列 。Python 序列 的 特色 是 : 序列 可 做 运算 ， 包 括 加 法 、 


乘法 ， 富 避 各 出生 支持 序列 的 复制 、 序 列 可 以 负 索 引 等 。 下 面 来 看 例子 1.3。 
例子 1.3 Python 序列 的 特性 


| 
>>> b=[4,5] 


c=a+b 

print(c) 

2 Sr ar 5 

d=c*2 

print(d) 

2 Ar Ar Sr Lr 2 3 qr 5) 
print(d[0:2]) 

2] 

prine(dl=3e=21y 


print(drl=3:=L1y 
4] 


1.4.3 ”对 各 种 编程 模式 的 支持 


Python 是 一 种 面向 对 象 的 编程 语言 。 
们 用 面向 


可 


可 以 使 


Python 社区 多 为 实 


Java) 


a 全 


不 过 不 像 其 他 面向 对 象 的 语言 ，Python 并 不 强迫 我 


对 象 的 方法 来 写 程序 ， 人 允许 我 们 上 
函数 式 的 编程 方式 来 编程 。 


面向 过 程 的 方式 来 写 模块 、 函 数 等 。Python 甚至 


主义 者 ， 并 不 追求 彻底 完美 的 面向 对 象 语法 (比如 Ruby 和 
j 何 种 编程 模式 来 编写 程序 取决 于 程序 员 的 需要 ， 不 过 Python 对 面向 对 象 仍然 支 


持 得 非常 好 ， 不 但 支持 类 、 对 象 、 继 承 、 私 有 、 公 有 成 员 、 多 态 、 重 载 这 些 面向 对 象 语法 ， 
而 且 支 持 多 重 继承 、 类 的 公共 属性 等 特性 。 


1.4.4 Python 的 动态 性 
Python 支持 的 动态 性 主要 包括 : 
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语义 的 动态 
语句 的 动态 
对 象 属性 的 动态 
基 类 的 动态 改变 


1. 语义 的 动态 

语义 的 动态 改变 ， 就 是 变量 通过 赋值 来 决定 变量 的 类 型 ， 而 且 通 过 赋值 可 以 改变 变量 的 
类 型 。 目 前 大 部 分 脚本 语言 都 支持 这 个 特性 。 下 面 来 看 例子 1.4。 
例子 1.4 Python 的 动态 语义 


>>> a=1 


>>> type (a) 
<class 'int'> 
>>> a="'12" 

>>> type(a) 
<class 'str'> 
>>> a=1.3 

>>> type (a) 
<class 'float'> 
>>> a=[1,2,3] 
>>> type(a) 


olaas Tse 

变量 a， 随 着 赋值 操作 ， 类 型 也 随 之 发 生变 化 ， 这 就 是 语义 的 动态 。 

2. 语句 的 动态 

语句 的 动态 ， 是 指 Python 可 以 把 代码 写 到 一 个 字符 串 里 ， 然 后 运行 ， 也 可 以 执行 一 个 文 
件 里 的 代码 ， 以 把 代码 作为 参数 传 给 Python 程序 或 者 代码 ，Python 代码 本 身 可 以 作为 参数 传 
给 Python 程序 运行 ， 如 下 面 的 例子 1.5 所 示 。 
例子 1.5 Python 代码 作为 参数 传递 


Sm 

> 

>>> exec("sum = i + j") 

>>> print ("sum is : %s" $%sum) 


Sum is : 5 
3. 对 象 属性 的 动态 
对 象 属性 的 动态 ， 就 是 可 以 动态 地 新 增 一 个 对 象 的 属性 、 删 除 一 个 属性 、 使 用 getattrO 得 


到 一 个 对 象 的 属性 、 使 用 setattr0 来 修改 设置 对 象 的 新 属性 、 使 用 delattr0 删 除 对 象 的 属性 。 
有 时 还 可 以 用 anewattr=attr 来 设置 新 属性 。 下 面 来 看 例子 1.6。 


例子 1.6 动态 增加 对 象 属性 


>>> class Al(object): 
a=3 
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>>> a=A() 
>>> print (a.a) 
3 


>>> setattr (a, "new_member", "新 参数 ") 


>>> print(a.new member) 


新 参数 


对 象 a 是 类 A 的 实例 化 ， 通 过 setattr 给 对 象 a 增加 一 个 属性 new_member。 需 要 注意 的 
是 ， 我 们 给 对 象 a 增加 属性 new_member， 并 没有 给 类 A 增加 new_member， 所 以 用 A 实例 
化 对 象 时 ， 新 对 象 仍 然 只 有 一 个 属性 a。 


实例 化 就 通过 类 生成 一 个 对 象 实例 ， 一 般 称 为 类 实例 化 。 这 方面 的 知识 在 “类 和 对 象 ” 


一 章 会 详细 介绍 。 


4. 基 类 的 动态 改变 
继承 基 类 的 动态 改变 是 指 可 以 动态 地 改变 一 个 类 的 继承 基 类 、 增 加 继承 的 基 类 ， 使 一 个 


类 拥有 新 的 基 类 方法 


， 而 不 用 修改 原来 的 基 类 的 方法 。 这 个 听 起 来 比较 抽象 ， 现 在 讲 会 显得 


复杂 ， 估 计 等 学 完 “ 类 和 对 象 ”就 明白 了 。 


1.4.5 匿名 函数 、 藤 套 函 数 
Python 函数 方面 的 语言 特性 主要 包括 参数 可 选 、 参 数 支持 默认 值 ， 也 可 以 改变 参数 的 赋 


值 顺序 ， 而 且 支 持 像 


C 语言 printf 那样 的 可 变 参数 。Python 支持 单行 函数 、 匿 名 函数 、 峰 套 


函数 ， 还 支持 函数 作为 参数 进行 传递 ， 这 些 特性 使 得 Python 能 够 支持 函数 式 编程 ， 像 LISP 


或 者 Haskell 那样 使 
章节 做 详细 讨论 。 


用 函数 式 的 思维 模式 进行 编程 。 有 关 这 部 分 内 容 ， 我 们 将 在 讨论 函数 的 


1.4.6 Python 自省 


省 的 英文 为 introspection (有 的 翻译 为 “内 省 ”， 有 的 翻译 为 “反射 ”) ， 是 Python 


的 一 大 特性 。Guido 创造 Python 时 ， 不 希望 把 Python 创造 成 一 个 需要 程序 员 不 时 去 翻阅 语法 


书 的 复杂 语言 ， 所 以 Guido 给 予 了 Python 非常 强大 的 自省 能 


所 谓 自省 ， 对 人 而 言 ， 是 指 对 某 人 自身 思想 、 情 绪 、 动 机 和 行为 的 检查 ， 如 “看 日 三 省 
吾 身 ”。 对 计算 机 编程 而 言 ， 查 找 某 些 事物 以 确定 它 是 什么 、 它 知道 什么 以 及 它 能 做 什么 。 
通过 自省 能 力 ， 我 们 就 可 以 通过 Python 解释 器 知道 现在 有 什么 对 象 、 包 、 函 数 可 用 ， 用 来 做 
什么 以 及 如 何 用 等 信息 。 自 省 能 力 还 能 动态 地 对 对 象 的 状态 进行 判断 等 。Python 对 自省 提供 


Ee] 


了 深入 的 广泛 的 支持 ， 


这 个 特性 使 得 Python 编程 体验 变 得 非常 便捷 。 在 本 书 以 后 章节 会 穿插 


一 些小 技巧 点 来 介绍 Python 的 自省 能 力 。 
除了 上 面 的 一 些 特性 之 外 ，Python 还 有 很 多 语言 特性 ， 比 如 支持 异常 处 理 ， 并 且 支 持 异 
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常 中 else 判断 ， 支 持 循环 语句 else (在 Python 的 循环 语句 中 ， 可 以 有 else 子 句 ， 表 示 没 有 使 


break 语句 退出 循环 ， 即 循环 正常 结束 时 要 执行 的 语句 ， 在 for、while 
对 赋值 ， 连 接 比 较 、 对 象 持久 化 等 各 种 特性 ， 这 些 内 容 将 在 以 后 的 章节 具体 讨论 。 


P 均 有 ) ， 


支持 同 


Python 2.X、Python 3.X 与 Python 3.7 


相对 于 Python 2.X 而 言 ，Python 3.X 的 升级 是 一 个 较 大 的 改变 。 为 了 不 带 入 过 多 的 累 
歼 ，Python 3.0 在 设计 的 时 候 没 有 过 多 地 考虑 向 下 兼容 。 许 多 Python 2.X 的 程序 都 无 法 在 
Python 3.X 上 运行 (也 有 专门 的 程序 可 以 将 Python 2.X 的 程序 转换 成 Python 3.X 的 程序 ) 。 
新 的 Python 程序 建议 使 用 Python 3.X 版 本 的 语法 ， 而 且 大 多 数 第 三 方 库 都 正在 努力 地 兼容 


Python 3.X 版 本 。 


1.5.1 Python 2.X 和 Python 3.X 的 区 别 


Python 2.X 和 Python 3.X 内 部 变化 在 这 是 


化 ， 以 便于 读者 看 到 Python 的 旧 代 码 就 知道 是 不 是 Python 2.X 版 本 。 


1. print() 函 数 


在 Python 2.X 中 ，print 是 语句 ;到 了 Python 3.X，Pprint 是 函数 。 


##PYthon 2.X 中 print 的 用 法 
>>> print "abcd" 


>>> print ("abcd") #print 后 面 有 空格 


>>> print ("abcd") 
###PYthon 3.X 中 print 的 用 法 
>>> print ("abcd") 


可 以 看 出 ， 在 Python 3.X 中 print 只 能 以 函数 的 方式 调 


2. 数据 类 型 
Python 3.X 去 除了 long 类 型 ， 只 有 - 


long。 


有 不 会 详 述 ， 这 里 只 简 述 使 用 时 最 明显 的 几 个 变 


-种 整 型 一 一 int， 但 它 的 范围 就 像 Python 2.X 版 本 的 


Python 3.X 新 增 了 bytes 类 型 ， 对 应 于 Python 2.X 版 本 的 八 位 串 。 
Python 2.X 有 ASCII str0 类 型 ，unicodeO 是 单独 的 ， 不 是 byte 类 型 。 现 在 ， 在 Python 


3X 中 有 了 Unicode (UTF-8)〉 字符 串 ， 以 及 一 个 字 节 类 : 


文件 默认 使 用 UTF-8 编码 。 


3. range 和 input 


在 Python 2.X 中 有 两 种 方式 可 以 创 于 


列表 〈 有 序 序列 ) range 和 xrange， 


oe -个 生 


生成 的 是 列 


byte 和 bytearrays。 了 Python 3.X 源码 


杷 


表 ， 一 个 生成 的 是 生成 器 。 到 了 Python 3.X 中 ， 只 剩 下 了 一 个 range0 函 数 可 用 ， 而 且 在 
Python 3.X 中 rangeO 函 数 返 回 的 是 一 个 对 象 。 这 跟 Python 2.X 是 截然 不 同 的 。 

Python 3X 中 的 input0 函 数 完全 取代 了 Python 2.X 中 的 raw_inputO 函 数 。Input 的 返回 值 
必定 是 一 个 字符 串 。 这 样 就 避免 了 输入 参数 类 型 的 麻烦 。 


4. 模块 改名 


Python 3.X 整合 了 Python 2.X 几 个 功能 相似 的 模块 ， 削 减 了 几 个 不 常用 或 者 重复 的 功 
能 ， 并 将 几 个 模块 改名 。 如 Python 3 和 将 Python 2.X 中 的 urllib2、urlparse、robotparser 并 入 
urllib 模块 。 


1.5.2 Python 3.7 的 新 增 功 能 


与 Python 3.6 相 比 ，Python 3.7 于 2018 年 6 月 27 日 发 布 ， 本 小 节 介 绍 几 个 常用 的 新 增 功 
能 。 对 于 入 门 读者 而 言 ， 这 些 内 容 其 实 并 不 简单 ， 所 以 读者 也 可 以 直接 略 过 。 

1. 强制 UTF-8 运行 时 模式 

UTF-8 (8-bit Unicode Transformation Format) 是 一 种 针对 Unicode 的 可 变 长 度 字 符 编 
码 ， 其 优势 是 使 用 UTF-8 编码 的 文字 可 以 在 各 国 各 种 支持 UTF-8 字符 集 的 浏览 器 上 显示 ， 不 
管 是 中 文 简体 、 中 文 繁体 还 是 日 文 、 韩 文 等 。 

Python 一 直 支 持 UTF-8， 但 是 本 地 语言 环境 (locale) 有 时 仍 是 ASCII 码 ， 而 不 是 UTF- 
8， 检 测 语言 环境 的 机 制 并 不 总 是 很 可 靠 ， 所 以 Python 3.7 添加 了 UTF-8 运行 时 模式 假设 
UTF-8 是 环境 提供 的 语言 环境 ) ， 可 通过 -X utfg PYTHONUTEFS8 命令 行 开关 启用 ， 在 POSIX 
语言 环境 中 ，UTF-8 模式 默认 情况 下 已 被 启用 ， 但 在 其 他 位 置 默认 情况 下 被 禁用 ， 以 免 破 坏 
向 后 兼容 。 


2. 具有 纳 秒 分 辩 率 的 新 时 间 函 数 


现代 系统 中 时 钟 的 分 辨 率 可 能 超过 time.time0 函 数 及 其 变 体 返 回 的 浮 点 数 的 有 限 精 度 。 
为 了 避免 精度 损失 ，Python 3.7 为 模块 增加 了 现 有 定时 器 功能 的 6 个 新 “ 纳 秒 ” 变 体 time， 
这 些 函 数 会 以 整数 值 的 形式 返回 纳 秒 数 。 


® time.clock gettime ns() 
time.clock settime ns() 
time.monotonic_ns() 
time.perf counter ns() 


time.process time ns() 


time.time ns() 


Co 


. 内 置 breakpoint() 
Python 附带 内 置 的 调试 器 ， 也 可 以 连 入 第 三 方 调试 工具 ， 只 要 它们 能 与 Python 的 内 部 调 
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试 API 进行 对 话 。 不 过 ，Python 到 目前 为 止 缺少 一 种 从 Python 应 用 程序 里 面 以 编程 方式 触 
发 调试 器 的 标准 化 方法 。 

Python 3.7 添加 了 breakpoint()， 可 使 函数 被 调用 时 让 执行 中 断然 后 切换 到 调试 器 。 相 应 
的 调试 器 不 一 定 是 Python 自己 的 pdb， 可 以 是 之 前 被 设 为 首选 调试 器 的 任何 调试 器 。 以 前 ， 
调试 器 不 得 不 手动 设置 ， 然 后 调用 ， 因 而 使 代码 更 见长 。 有 了 breakpoint0 后 ， 只 需 一 个 命令 
即 可 调用 调试 器 。 

除 以 上 介绍 的 3 个 常见 特色 外 ， 还 有 以 下 几 个 改变 : 

@ 基于 散 列 的 .pyc 文件 。 
自 定义 对 模块 属性 的 访问 。 
面向 开发 者 的 运行 时 模式 。 
新 的 dataclass() 装 饰 器 。 
新 的 模块 contextvars。 


开始 编程 : 第 一 个 Python Hello World 
既然 是 第 1 章 ， 我 们 就 来 写 一 个 简单 的 Hello World。 打 开 IDEL， 输 入 如 例子 1.7 所 示 
的 代码 。 
例子 1.7 Hello World 


>>> print ("Hello World") 
Hello World 


好 了 ， 是 不 是 很 简单 ? 


本 章 小 结 


本 章 主要 从 整体 上 介绍 了 Python 语言 的 历史 和 语言 特性 ， 讨 论 了 Python 的 安装 和 
Python IDE 的 选择 ， 下 一 章 将 开始 Python 语言 之 旅 。 
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至 2 音 


9 是 
4Pyfthon 基 础 知识 > 


学 习 一 门 语言 ， 最 基础 的 就 是 语法 ， 一 般 就 是 数据 类 型 、 流 程控 制 等 。 
的 读者 ， 可 以 在 本 章 看 看 Python 语言 与 其 他 语言 的 区 别 ， 没 有 学 习 过 其 他 语言 
要 在 本 章 加 强 代码 的 练习 。 

本 章 的 主要 内 容 是 : 


@ PyShell 的 使 用 。 


学 习 过 其 他 语言 
的 读者 ， 则 需 


@ Python 中 的 数值 、 字 符 串 。 
@ 列表 的 使 用 。 

@ 流程 控制 。 

@@ 函数 的 学 习 。 


Python 的 基础 简介 


前 面 学 习 了 很 多 Python 的 理论 知识 ， 本 节 开 始 增加 动手 能 力 ， 先 从 1+1 开始 吧 ! 


2.1.1 启动 Python 解释 器 
打开 IDEL 后 ， 会 出 现 主 提示 符 “>>>”， 表 示 Python 解释 器 已 经 启动 起 来 了 ， 解 释 器 
的 行为 就 像 是 一 个 计算 器 。 我 们 可 以 向 它 输 入 一 个 表达 式 ， 它 会 返回 结果 ， 例 如 : 


和 


表达 式 的 语法 和 大 多 数 计算 机 语言 是 一 样 的 ， 具 有 各 种 数字 类 型 和 四 则 运算 ， 也 可 以 使 
用 括号 来 划分 表达 式 的 优先 级 ， 例 如 : 


Python 基础 知识 


2.1.2 ”数值 类 型 


可 以 尝试 在 Python 解释 器 下 输入 各 种 类 型 的 数值 ， 不 只 是 整数 ， 也 可 以 是 小 数 ， 甚 至 可 
以 是 复数 ， 例 如 : 


在 上 面 的 代码 中 ，a 是 整数 ，b 是 小 数 ，c 是 复数 ， 复 数 由 两 部 分 组 成 ， 虚 部 由 一 个 后 组 
“j” 或 者 “J” 来 表示 。 带 有 非 零 实 部 的 复数 记 为 “(realtimagj)”， 符 号 “=” 是 绑 定 的 意 
思 ， 意 思 就 是 说 ，a 以 后 和 数字 3 绑 定 在 一 起 了 ， 只 要 提 到 a， 就 知道 它 是 数字 3， 当 然 绑 定 
是 可 以 随时 改变 的 ，a 可 以 和 数字 3 绑 定 在 一 起 ， 也 可 以 和 其 他 数 绑 定 在 一 起 ， 例 如 ， 


同一 个 值 可 以 同时 赋 给 几 个 变量 : 


不 同 的 值 也 可 以 方便 和 几 个 不 同 的 变量 相 绑 定 ， 例 如 : 
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2.1.3 字符 串 


在 Python 中 ， 带 单 引 号 或 者 双 引 号 的 都 是 字符 串 ， 在 Python 中 没有 字符 这 个 概念 ， 单 
个 字符 也 认为 是 字符 串 ， 例 如 : 


>>> bb='china' 


>>> aa="china" 
>>> aa 
'china' 
>>> bb 


'china' 


字符 串 可 以 通过 几 种 方式 分 行 。 可 以 在 行 尾 加 反 斜 杠 作 为 继续 符 ， 这 表示 下 一 行 是 当前 
行 的 逻辑 延续 ， 例 如 : 


>>> hello = "这 是 第 1 行 \n\ 
. . .这 是 第 2 行 \n\ 
. . .这 是 第 3 行 \ 
. .结束 。" 
>>> 


或 者 字符 串 可 以 用 一 对 三 重 引号 "或 "来 标识 。 三 重 引号 中 的 字符 串 在 行 尾 不 需要 换行 
标记 ， 所 有 的 格式 都 会 包括 在 字符 串 中 ， 例 如 : 


>>> hello = """ 希 望 你 学 的 开心 
Python 并 不 难 。 

一 个 小 小 的 提示 : 

开心 就 好 。"™"" 

>>> 


字符 串 可 以 用 + 号 连接 〈 或 者 说 黏合 ) ， 也 可 以 用 * 号 循环 ， 例 如 : 


>>> word = 'Help' + 'A' 


>>> word 
'HelpA' 
S33 Te FE WOrd*5 + ">" 


'<HelpAHelpAHelpAHelpAHelpA>' 


也 可 以 使 用 字符 串 自 带 的 方法 来 进行 英文 大 小 写 转换 。 例 如 ，upperO 是 转换 成 大 写 ， 而 
lower0 是 转换 成 小 写 : 

>>> € str="china" 

>>> €_str.upper() 

"CHINRA 


>>> hh=e_str-upper() 


20 


>>> print (hh) 
CHINA 
>>> hh.lower() 


'china' 


字符 串 可 以 用 下 标 〈 索 引 ) 查询 ; 就 像 C 一 样 ， 字 符 串 的 第 一 个 字符 下 标 是 0。 这 里 没 
有 独立 的 字符 类 型 ， 字 符 仅仅 是 大 小 为 一 的 字符 串 。 就 像 在 Icon 中 那样 ， 字 符 串 的 子 串 可 以 


通过 切片 标志 来 表示 ， 两 个 由 冒号 隔 开 的 索引 ， 例 如 : 


>>> hh.lower() 
"china'" 

>>> word='Help' 
>>> word[3] 


>>> word[0:2] 
wper 
>>> word[2:4] 
"1p， 


的 切片 操作 符 是 中， 里 面 使 用 数字 ， 用 冒号 问 隔 ， 表 示 从 第 儿 位 到 第 几 位 。 如 果 没 有 冒 
号 ， 只 有 1 个 数字 ， 表 示 从 第 1 个 〈 下 标 为 0) 开始 截取 。 i 


需要 注意 的 是 ， 字 符 串 是 不 可 以 更 改 的 ， 可 以 创建 新 的 字符 串 ， 但 是 绝 不 能 更 改 存在 的 


字符 串 ， 例 如 : 


>>> word[3]="'P" 


Traceback (most recent call last): 


File "<stdio>", line 1, in <module> 


TypeError: 'str' object does not support item assignment 


>>> word[0]='h"' 
Traceback (most recent call last): 


File "<stdio>", line 1, in <module> 


TypeError: 'str' object does not support item assignment 


可 以 使 用 已 经 存在 的 字符 串 去 合并 新 的 字符 串 ， 例 如 : 
>>> 'h'+word[1:] 
'help' 

2.1.4 列表 


列表 是 Python 中 的 容器 ， 用 于 组 织 其 他 的 值 ， 为 中 括号 之 间 
项 ) 。 列 表 的 子 项 不 一 定 是 同一 类 型 的 值 ， 例 如 : 


逗号 分 隔 的 一 列 值 〈 子 
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Python 3.7 编程 快速 入 门 


像 字符 串 一样 ， 列 表 也 以 0 开始 ， 可 以 被 切片 、 连 接 等 : 


与 不 变 的 字符 串 不 同 ， 列 表 可 以 改变 每 个 独立 元 素 的 值 : 


列表 可 以 进行 切片 操作 ， 甚 至 可 以 改变 列表 的 大 小 : 


明 ET PT PT PT a 
® 本 书 第 3 章 会 详细 介绍 列表 类 型 的 使 用 ， 在 这 里 简略 介绍 ， 也 是 因为 后 面 的 例子 会 用 到 。 


2.1.5 流程 控制 


据 一 


流程 控制 最 重要 的 是 两 种 流程 控制 方式 : 


@ ”选择 语句 
@ ”循环 语句 


et 
本 章 的 流程 控制 和 函数 等 相关 技术 点 只 是 方便 本 章 后 面 的 案例 编码 ， 让 读 才 可 以 有 简单 
的 了 解 ， 详 细 技术 点 的 分 析 会 在 后 面 的 章节 逐步 展开 。 

1. 选择 语句 


Python 提供 了 下 .elif...else 语句 进行 选择 分 支 ， 例 如 : 


>>> x = int (input ("输入 一 个 数字 : ")) 
EE 
x=0 
print (' 不 能 小 于 0') 
. elif x == 0: 
print (0) 
. elif x %2 == 1: 
print ("单数 ") 
» else: 


print ("其 他 ") 
关键 字 “elif” 是 “else if” 的 缩写 ， 可 以 有 效 避 免 过 深 的 缩 进 。 


2. 循环 语句 


Python 提供 了 几 个 不 同 的 循环 语句 ， 最 主要 的 有 for 和 while 语句 。 通 常 的 循环 可 能 会 依 
个 等 差 数 值 步 进 过 程 (如 Pascal) 或 由 用 户 来 定义 迭代 步骤 和 中 止 条 件 (如 C) ， 


od 的 for 语句 依据 任意 序列 (列表 或 字符 串 〉 中 的 子 项 ， 按 它们 在 序列 中 的 顺序 来 进行 
过 代 。 例 如 : 


>>> a = ['cat', 'Windows', 'defenestrate'] 
5 EOE x Tn A 


print (x, len (x)) 
Cat 3 
Windows 7 
defenestrate 12 


在 兴 代 过 程 中 修改 迭代 序列 不 安全 (只 有 在 使 用 列表 这 样 的 可 变 序列 时 ， 才 会 有 这 样 的 


情况 ) 。 如 果 想 要 修改 欠 代 的 序列 《〈 例 如， 复制 选择 项 ) ， 可 以 迭代 它 的 复 本 。 通 常 使 用 切 
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片 标识 就 可 以 很 方便 地 做 到 这 一 点 : 


>>> for x in al:l: 
££ len(tx) > 6: 


a.insert(0, x) 


['defenestrate', ‘cat', '‘'Windows', 'defenestrate'] 

Python 中 的 while 语句 和 C 中 使 用 的 很 相似 ， 都 是 在 while 关键 字 后 加 一 个 循环 表达 
式 ， 当 循环 表达 式 为 真 或 者 True 的 时 候 ， 会 一 直 循环 着 ， 当 循环 表达 式 为 False 的 时 候 ， 会 
退出 循环 ， 例 如 : 


>>> i=0 


>>> while i<5: 


print (i) 
i+=1 

0 

5 

公 

3 

4 

2.1.6 函数 


函数 定义 的 关键 字 是 def， 在 其 后 必须 跟 有 函数 名 和 包括 形式 参数 的 圆 括号 。 函 数 体 语 
名 从 下 一 行 开 始 ， 必 须 是 缩 进 的 。 函 数 体 的 第 一 行 可 以 是 一 个 字符 串 值 ， 这 个 字符 串 是 该 函 
数 的 文档 字符 串 ， 也 可 称 作 docstring， 相 当 于 代码 的 注释 ， 代 码 中 加 入 文档 字符 串 是 一 个 好 
的 做 法 ， 应 该 养 成 习惯 。 

调用 函数 时 会 为 局 部 变量 引入 一 个 新 的 符号 表 。 所 有 的 局 部 变量 都 存储 在 这 个 局 部 符号 
表 中 。 引 用 参数 时 ， 会 先 从 局 部 符号 表 中 查找 ， 再 是 全 局 符号 表 ， 然 后 是 内 置 命名 表 。 因 
此 ， 全 局 参数 虽然 可 以 被 引用 ,但 是 不 能 在 函数 中 直接 赋值 (除非 它们 用 global 语句 命 
名 ) 。 

函数 引用 的 实际 参数 在 函数 调用 时 引入 局 部 符号 表 ， 因 此 实 参 总 是 传 值 调 用 (这 里 的 值 
总 是 一 个 对 象 引 用 ， 而 不 是 该 对 象 的 值 ) 。 一 个 函数 被 另 一 个 函数 调用 时 ， 一 个 新 的 局 部 符 
号 表 在 调用 过 程 中 被 创建 。 

函数 定义 在 当前 符号 表 中 引入 函数 名 。 作 为 用 户 定义 函数 ， 函 数 名 有 一 个 为 解释 器 认可 
的 类 型 值 。 这 个 值 可 以 赋 给 其 他 命名 ， 使 其 能 够 作为 一 个 函数 来 使 用 。 这 就 像 一 个 重 命名 机 
制 ， 例 如 定义 一 个 计算 裴 波 那 契 数 列 的 函数 : 

>>> def fibl(n): 

a Di 
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while b < n: 
print (b) 
ar b= b，a+b 


斐 波 那 契 数 列 (Fibonacci sequence) 又 称 为 黄金 分 割 数列 ， 指 的 是 这 样 一 个 数列 : 1、 : 
1s 2% 3% 和 尔 Bs 13s 21s 34 ; 


既 可 以 直接 调用 该 函数 ， 也 可 以 将 函数 作为 值 赋 给 其 他 变量 : 


>>> fib 


<function object at 10042ed0> 
>>> £ = fdibp 

>>> £(100) 

Ul 2 A SMG 2 39 


开始 编程 : 九 九 乘法 表 


在 2.1 节 中 ， 初 步 介绍 了 Python 编程 的 一 些 基 础 语法 知识 ， 本 节 将 应 用 Python 的 这 些 基 
础 知识 来 编程 实现 一 个 简单 的 九 九 乘法 表 。 
【本 节 代 码 参 考 : CO02\py 2.1.py】 


2.2.1 ” 九 九 乘法 表 

九 九 乘法 表 是 将 10 之 内 的 数 互相 相 乘 的 结果 以 三 角形 的 样式 打印 出 来 ， 在 本 节 的 应 用 
中 ， 不 只 是 要 将 九 九 乘法 表 以 三 角形 的 样式 打印 出 来 ， 还 需要 以 倒 三 角形 来 打印 九 九 乘法 
表 。 


2.2.2 编程 思路 

要 以 三 角形 、 倒 三 角形 的 样式 来 打印 九 九 乘法 表 ， 关 键 的 编程 要 点 有 两 个 : 

@ 获得 所 有 10 之 内 乘法 的 运算 式 和 结果 。 

@ ”将 运算 式 和 结果 排版 成 正三 角 和 倒 三 角 的 形式 。 

要 获得 所 有 10 之 内 的 乘法 运算 式 和 结果 ， 最 简单 的 方法 是 通过 循环 来 实现 ， 通 过 两 个 变 
量 ， 让 它们 都 在 10 之 内 双重 循环 ， 然 后 计算 它们 的 结果 ， 这 样 就 可 以 得 到 10 之 内 所 有 的 运 
算式 和 结果 ， 代 码 如 下 : 


>ZUGeE getallls 
lis=[] 


for 1 in range(l,10): 
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for j in range(1,i+!): 
lis.append (str (i)+"*"+str (j)+"="+str (i*j)) 


return lis 


函数 getall 使 用 了 一 个 双重 循环 ， 该 循环 的 作用 就 是 将 10 之 内 互 乘 的 运算 式 和 结果 都 存 
放 到 列表 lis 中 ， 这 样 就 可 以 使 用 getall 的 返回 值 获得 所 有 的 互 乘 的 运算 式 和 结果 ， 例 如 : 


>>> getall() 

下 于 二 下 "2*1=2"7 "2*2=47) “31=3"y "3*2=6"y, "3*3=9"y "4*1=4" 8 7 
"4*3=12", "4*4=]16"', "5*]1=5'; "5+2=10"， "5*3=15"， "5*4=20"， "5*5=25"， ‘'6*1=6', 
TO*2=12" "6*3=18"y "6*4=24";y '6*5=30"r 716*6=3677 "TI*1=7"y "7*2=14's "7*3=21", 
17*4=28"， "7*5=35', "7*6=42", '7*7=49', "8*]1=8", "8*2=]16"'; "8*3=24', 78*4=3277 
'8*5=40"', '8*6=48', ‘'8*7=56', "8*8=64', ‘'9*]=9', '9*2=]18', '9*3=27', '9*4=36', 
5 


有 了 所 有 的 互 乘 的 运算 式 和 结果 ， 下 面 的 工作 就 是 如 何 组 织 这 些 运 算式 来 排列 成 三 角形 
和 倒 三 角形 ， 也 就 是 说 ， 要 将 列表 lis 的 元 素 按照 一 定 的 规律 输出 到 屏幕 就 可 以 了 。 


2.2.3 ”编程 实现 
九 九 乘法 表 使 用 最 简单 的 for 循环 ， 还 利用 了 Python 特有 的 变量 类 型 一 一 列表 。 程 序 很 
简单 ， 保 存 为 py_2.1.py， 运 行 例子 2.1 将 九 九 乘法 表 输 出 到 终端 。 


例子 2.1 Python 打印 九 九 乘 法 表 


01 #!/usr/bin/env python3 


02 

03 def getall () : 

04 lis = [] 

05 for i in range(1，10) : 

06 for 3 Jn range(ls FI 

07 Lis-.append(str (ty ST Mw + StrAL) 3 "=" + ntrtisIyy 
08 return lis 

09 

10 def printTabl(lis, order = 'A'): 

人 cpLis = lis[:] 

12 if order == 'A': # 顺 序 打印 表格 

1 cpLis.reverse() 

14 for i in range(l, 10): 

15 while 1 > 0: 

16 print("%s \t" %cpLis.pop(), end="") 
eh 

18 print() 

19 else: # 倒 序 打印 表格 

20 for 和 in range(tlr 10): 

六 We ALO = TL Os 

沁 妆 print("%s \t" $cpLis.pop(), end="") 
父 肥 开会 二 本 玉 

24 print() 


26 


25 


26 

27 和 E name = " main 
28 lis = getall() 

29 printTab(lis, 'A') 
30 brint (Nn) 

31 printTab (lis, "“B") 


可 以 在 命令 行 执行 命令 : 
Python py _ 2.1.py 


也 可 以 在 IDEL 中 单 


按 F5 键 运行 。 


i File[INew File 打开 编辑 器 ， 输 入 上 述 内 容 ， 保 存 为 py_2.1.py 后 ， 


执行 结果 如 图 2.1 所 示 。 


$ python py_2.1.py 


1*1=1 
1*2=2 
233=3 
1*4=4 
1*5=5 
1*6=6 
1*7=7 
1*8=8 
1*9=9 


9*9=81 
8*8=64 
7*7=49 
6*6=36 
5*5=25 
4*4=16 
3*3=9 
2*2=4 
1*1=1 


在 例子 2.1 的 第 13 行 中 ， 利 月 


2*2=4 
2*3=6 
2*4=8 
2*5=10 
2*6=12 
2*7=14 
2*8=16 
2r9=18 


8r9=72 
7*8=56 
6*7=42 
5*6=38 
4*5=29 
3*4=12 
2*3=6 

1*2=2 


3*3=9 

3*4=12 
3*5=15 
3*6=18 
3*7=21 
3*8=24 
3*9=27 


7*9=63 
6*8=48 
5*7=35 
4*6=24 
3*5=15 
2*4=8 

1*3=3 


4*4=16 
4*5=20 
4*6=24 
4*7=28 
4*8=32 
4*9=36 


6*9=54 
5*8=40 
4*7=28 
3*6=18 
2*5=16 
1*4=4 


将 元 素 逐 个 “ 吐 ” 出 并 输出 到 屏幕 上 。 


5*5=25 
5*6=39 
Se 
5*8=40 
5S*9=45 


5S*9=45 
4*8=32 
3*7=21 
2*6=12 
1*5=5 


图 2.1 


6*6=36 
6*7=42 
6*8=48 
6*9=54 


4*9=36 
3*8=24 
2*7=14 
1*6=6 


7*7=49 
7*8=56 
7™*9=63 


3*9=27 
2*8=16 
1*7=7 


九 九 乘法 表 


8*8=64 
8*9=72 9*9=81 


2*9=18 1*9=9 
1*8=8 


日 list 列表 的 reverseO 将 列表 中 的 元 素 倒 置 ， 然 后 利用 popO 


2 了. 本 章 小 结 


本 章 介绍 了 Python 的 基本 知识 ， 并 安装 好 了 Python 的 环境 ， 用 一 个 简单 的 程序 展示 了 
Python 程序 的 流程 控制 。 
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第 3 章 
<Python 的 内 置 类 型 


和 其 他 程序 语言 一 样 ，Python 也 有 各 种 各 样 的 内 置 类 型 ， 包 括 数字 类 型 、 字 符 串 、 列 
表 、 字 符 串 、 元 组 、 字 典 等 ， 相 对 于 静态 语言 〈 比 如 说 C++、Java) ，Python 的 数据 类 型 功 
能 更 全 面 和 强大 。 

本 章 的 主要 内 容 是 : 

@@ ”Python 类 型 分 类 。 

@ ”每 种 类 型 的 功能 和 用 法 。 

@ ”演练 各 种 类 型 。 


Python 的 类 型 分 类 


Python 不 同 于 其 他 语言 的 一 个 重要 概念 是 : Python 中 的 一 切 均 为 对 象 ， 虽 然 很 多 面向 对 
象 语言 也 有 这 样 的 概念 ， 但 是 Python 面向 对 象 的 原理 和 其 他 语言 不 同 ， 主 要 有 两 点 : 

@@ ”所 有 数值 都 封装 到 特定 的 对 象 中 ，Python 不 存在 像 C 中 的 int 这 样 的 简单 类 型 

@@ ”所 有 东西 都 是 对 象 ， 包 括 代码 本 身 也 被 封装 到 对 象 中 。 

Python 的 解释 器 内 建 数 个 大 类 ， 共 二 十 几 种 数据 类 型 ， 常见 的 对 象 类 
型 ， 如 数值 、 序 列 等 ， 其 他 类 型 则 较 少 使 用 。 后 面 几 节 将 详细 描述 这 些 最 常用 的 类 型 。 表 3-1 
列 出 Python 内 建 的 常见 类 型 。 


表 3-1 Python 内 置 类 型 


分 类 类 型 名 称 描述 
NoneType 窑 对 象 


数值 IntType 


FloatType 浮 点 奖 
ComplexType 


字符 让 


StringType 
UnicodeType Unicode 字符 串 
i 了 
序列 ListType 到 表 
TupleType 元 组 


range0 函 数 返 回 的 对 象 
buffer0 函 数 返 回 的 对 象 


RangeType 


BufferType 


( 续 表 ) 


BuiltinFunctionType 


BuiltinMethodType 
ClassType 


可 调用 类 型 


FunctionType 
InstanceType 
ModuleType 
ClassType 


InstanceType 

FileType 文件 允 

字 节 编译 码 

执行 框架 
内 部 类 型 异常 的 堆栈 跟踪 

由 扩展 切片 操作 产生 

在 扩展 切片 中 使 用 

在 表 3.1 所 罗列 的 类 型 中 ，None 和 数值 类 型 构造 和 使 用 较为 简单 ， 为 简单 类 型 。 内 部 类 

型 在 解释 器 调用 的 时 候 使 用 ， 程 序 员 一 般 较 少 使 用 。 本 章 主要 讨论 的 是 简单 类 型 以 及 序列 类 
型 、 映 射 和 集合 类 型 。 


简单 类 型 


Python 有 6 个 不 同 的 简单 类 型 ， 分 别 是 : 


@ 布尔 类 型 (bool 类型) : 用 于 逻辑 运算 和 比较 的 类 型 。 

整数 类 型 (int 类 型 ) : 类 似 于 其 他 计算 机 语言 的 int 类 型 。 

浮 点 类 型 (float 类 型 ) : 用 来 表示 小 数 的 类 型 。 

复数 类 型 (complex 类 型 ) : 用 来 表示 复数 的 类 型 ， 包 括 实数 和 虚数 两 部 分 。 
None 类 型 : 空 类 型 ， 用 来 表示 空 或 者 无 返回 值 。 


3.2.1 布尔 类 型 


Python 中 最 简单 的 内 置 类 型 是 bool 类 型 ， 该 类 型 包括 的 对 象 仅 可 能 为 True 或 False。 
个 类 型 主要 用 于 布尔 表达 式 。Python 提供 一 整套 布尔 比较 和 风 辑 运算 。 

布尔 运算 主要 有 : 

@ 小 于 ， 比 如 i<100。 


演 
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小 于 等 于 ， 比 如 i<=100。 
大 于 ， 比 如 这 100。 

大 于 等 于 ， 比 如 这 =100。 
相等 ， 比 如 二 -100。 
不 等 于 ， 比 如 il=100。 


逻辑 运算 符号 包括 : 


逻辑 非 ， 比 如 notb。 


@ 逻辑 与 ， 比 如 (b<100) and (b>50) 。 
@ 遇 辑 或 ， 比 如 (b<500) or (b>100) 。 


逻辑 运算 符 的 优先 级 低 于 单独 的 比较 运算 符 ， 所 以 在 运用 的 时 候 ， | 


明 运 算 的 优先 级 。 


实际 上 ， 在 Python 中 ， 不 只 
和 假 ， 
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Python 的 真 假 判断 


>>> a=0.0 

>>> print (not a) 
True 

>>> a=1.0 

>>> print (not a) 
False 

>>> a=0 

>>> print (not a) 
True 

>>> a=1l 

>>> print (not a) 
False 

>>> a=[] 

>>> print (not a) 
True 

>>> a=[1] 

>>> print (not a) 
False 

>>> a=0.0 

>>> print(True and a) 
0.0 

>>> print(True or a) 


True 


可 以 用 布尔 类 型 来 表示 真 和 假 ， 也 可 以 用 来 其 他 类 型 表示 真 


还 可 以 参加 逻辑 运算 。 例 子 3.1 是 Python 真 假 判断 的 例子 。 
例子 3.1 


24 >>> a=0 

25 >>> print(False and al) 
26 False 

27 >>> a=1l 

28 >>> print(False and a) 
29 False 

30 >>> Print (True and a) 
3 


在 Python 中 ， 除 了 False 表示 假 以 外 ，[]、 人 、0、””、0、0.0、None 这 些 均 表 示 假 。 而 
其 他 均 为 真 。 例 子 3.2 演示 了 用 0 和 0.0 等 来 和 布尔 类 型 来 进行 布尔 运算 的 情况 。 在 Python 
中 ， 任 何 类 型 都 可 以 类 似 于 布尔 类 型 进行 布尔 运算 ， 只 不 过 需要 牢记 在 Python 中 ， 不 只 是 0 
为 假 ， 还 包括 []、f}、0 等 各 种 等 同 于 假 的 情况 。 


在 C/C++ 等 程序 语言 里 0 为 假 、 其 他 为 真 。 使 用 Python 时 需要 在 这 一 点 上 注意 一 下 。 


对 于 布尔 运算 表达 式 ，Python 并 不 是 将 整个 表达 式 逐 步 执行 ， 例 如 类 似 于 exprl and 
expr2 的 运算 ， 若 exprl 为 假 则 直接 返回 exprl ， 而 不 会 去 处 理 expr2， 也 就 是 说 如 果 exprl 为 
0、0.0、 空 列表 等 各 种 为 假 的 情况 ， 该 表达 式 直接 返回 exprl， 而 不 会 去 处 理 expr2， 只 有 当 
exprl 为 真 的 时 候 ， 才 会 去 处 理 expr2， 返 回 expr2 的 值 。 对 于 or 运算 (exprl or expr2) 来 
说 ， 如 果 exprl 为 真 ， 那 么 总 是 直接 返回 exprl， 而 不 会 去 处 理 expr2， 只 有 当 exprl 为 假 的 
时 候 ， 才 会 去 处 理 expr2， 并 返回 expr2 的 值 。 

对 于 一 个 组 合 的 表达 式 : condition and exprl or expr2， 会 有 怎样 的 结果 呢 ? 该 表达 式 的 
结果 有 如 下 几 种 情况 : 


@@ condition 为 真 ，exprl 为 真 ，expr2 不 做 处 理 ， 直 接 返回 exprl。 
@ condition 为 假 ，exprl 不 做 处 理 ， 直 接 返 回 expr2。 
@ condition 为 真 ，exprl 为 假 ， 直 接 返 回 expr2。 


从 上 面 的 分 析 可 以 看 出 ， 该 组 合 表达 式 的 返回 值 有 3 种 可 能 ， 取 决 于 condition 和 exprl 
这 两 个 表达 式 的 真 假 组 合 ， 只 有 当 两 个 表示 式 全 为 真 的 时 候 ， 才 返回 exprl， 其 他 情况 返回 
expr2。 

需要 注意 的 是 ， 该 表达 式 还 作为 Python 一 个 惯用 的 赋值 语句 ， 该 惯用 赋值 语句 假定 
exprl 为 真 ， 那 么 condition and exprl or expr2 表达 式 的 结果 可 以 简化 为 : 

@@ condition 为 真 ， 返 回 exprl 。 

@@ condition 为 假 ， 返 回 expr2。 


在 这 种 情况 下 ， 使 用 该 语句 就 可 以 替换 一 些 用 站 来 判断 赋值 的 简单 语句 。 例 子 3.2 给 出 
了 组 合 表达 式 的 使 用 演示 。 
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例子 3.2 ”组 合 表达 式 的 使 用 


01 >>> a=3 


02 >>> if a==3: 


03 wax tr2=" 和 七 主人 S333” 
O04 ver Oises 

O05 we Str2="it 153 2" 
06 


07 >>> Print(str2) 

08 it i5 3 

09 >>> strl= a==3 and “it 143, 3” Or “14t 4145 2” 

i190 >3> Brint(strely 

下 到 三 过 二 -过 等 滞 

hs 

上 面 代码 第 2~6 行 是 一 个 站..else 判断 语句 ， 用 来 判断 如 果 a 等 于 3 就 为 str2 赋值 “it is 
3”， 和 否则 赋 为 “it is 2”。 在 第 9 行 ， 使 用 组 合 表达 式 替 代 让 .else 语句 来 达到 同样 的 效果 ， 
而 代码 简洁 很 多 。 

这 种 用 法 完全 是 基于 假定 exprl 为 真 的 情况 下 使 用 的 ， 所 以 当 exprl 为 假 的 时 候 ， 是 不 
能 按照 这 种 方法 使 用 的 。 例 子 3.3 给 出 了 组 合 表达 式 惯用 法 不 适用 的 情况 。 


例子 3.3 ”组 合 表达 式 惯 用 法 的 意外 情况 


01 >>> a=3 


02 >>> if a==3: 


03 ... value=0 
04 ... else: 

05 ,.. value=1 
06 

07 >>> print (value) 
08 0 


09 >>> value= a==3 and 0 or 1 
10 >>> print (value) 
计生 


在 例子 3.3 中 ， 第 2~6 行 是 一 个 迁 ..else 语句 ， 用 来 说 明 当 a 等 于 3 的 时 候 value=0， 否 
则 value=1， 但 是 在 第 9 行 代码 中 ， 我 们 使 用 该 表达 式 惯用 法 却 得 到 和 站 ..else 语法 不 相同 的 
结果 ， 这 是 因为 该 惯用 法 的 假设 expr2 为 真 的 条 件 不 存在 了 。 


在 C 语言 中 ，cond? true _ expr: false expr 的 用 法 是 当 cond 为 真 的 时 候 直 接 返 回 
true expr， 和 否则 返回 false_ expr。Python 的 cond and true expr or false expr 的 用 法 在 形式 : 
上 和 该 用 法 很 相似 ， 但 是 特别 要 注意 ， 只 有 当 true_ expr 为 真 的 时 候 Python 的 该 用 法 才 
和 C/C++ 中 的 语义 等 价 。 : 


3.2.2 ”整数 类 型 


Python 用 来 存储 整数 的 类 型 的 就 是 整数 类 型 。 例 如 ，Python 的 数值 类 型 都 支持 加 、 减 、 


乘 、 除 、 寡 、 求 模 等 各 种 和 运算， 与 Python 2.X 略 有 不 同 的 是 Python 3.X 的 int 类 型 合并 了 
Python 2.X 的 int 类 型 和 long 类 型 : 


®@ 加 : a=1+3 
减 : a=1-3 
乘 : a=1*3 
除 : a=1/3 
容 : a=1**3 
求 模 : a=1%3 


上 述 数 值 运算 中 加 运 算 优先 级 最 高 ， 乘 除 和 求 模 同 一 优先 级 ， 加 减 最 后 。 需 要 调整 优先 


级 时 可 以 通过 加 括号 来 实现 ， 例 如 : 


A=3+4*5**2/6 
如 果 先 要 计算 加 ， 然 后 计算 乘 ， 可 以 使 用 如 下 方法 : 
R= ((3+4) *5) **2/6 


程序 员 一 般 在 十 进 制 系统 中 工作 。 有 时 其 他 进 制 的 系统 也 相当 有 用 ， 比 如 计算 机 就 是 基 


于 二 进 制 的 。Python 可 以 提供 对 八进制 和 十 六 进 制 数字 的 支持 。 要 通知 Python 应 该 按 八 进 制 


数字 常量 处 理 数字 ， 只 需 将 一 个 零 加 上 一 个 。 附 加 在 数字 前 面 。 将 一 个 零 加 上 一 个 x 附加 在 
数字 的 前 面 是 告诉 Python 按 十 六 进 制 数值 常量 处 理 数 字 ， 例 如 : 


>>> print (13) 
3 

>>> print (0013) 
i 

>>> print (0x13) 
i 


3.2.3 浮 点 数 类 型 


型 。 


所 谓 浮 点 数 类 型 ， 就 是 小 数 。 在 Python 中 ， 带 圆 点 符号 的 数值 都 会 被 认为 是 浮 点 数 类 
例如 : 
>>> a=1. 


>>> type (a) 
<class float'> 


3.2.4 复数 类 型 


复数 类 型 ， 在 其 他 计算 机 语言 中 很 少见 。 复 数 是 数学 里 的 一 个 概念 ， 在 科学 计算 中 ， 有 
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重要 的 


训 


kl 


处 ， 在 形式 上 有 实数 和 虚数 两 部 分 ， 在 Python 中 上 


FE 方 根 的 倍数 ， 用 字母 j 表示 ， 例 如 : 


>>> c=2+3j 


>>> Print(c) 


(2+3 


j) 


3.2.5 None 类 型 
None 类 型 是 Python 特殊 的 常量 ， 表 示 空 ， 等 同 于 C/C++ 中 的 null， 大 部 分 时 候 
断 函 数 或 者 对 象 方法 的 返回 结果 ， 无 返回 结果 即 为 None。 


简单 类 型 的 运算 


日 float 类 型 表示 ， 虚 数 是 -1 的 


来 判 


除了 支持 四 则 运算 和 求 模 、 求 寡 等 运算 外 ，Python 还 支持 求 补 、 左 移 、 右 移 、 按 位 和 、 
按 位 异 或 、 按 位 或 等 各 种 运算 。 例 子 3.4 列举 了 各 种 位 运算 。 


例子 3.4 Python 的 位 运算 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
LE 
2 
13 
14 
15 


2 


a=0x13 


a&Ox0l 


a^0Ox0l 


al0Ox0l 


上 面 的 代码 演示 了 各 种 位 运算 。~ 符 号 代表 求 补 运算 。 求 补 运算 不 考虑 符号 位 ， 对 它 的 
原 码 各 位 取 反 ， 并 在 末 位 加 1 即 可 。>> 符 号 代表 向 右 位 移 ，<< 代 表 向 左 位 移 ，^ 符 号 代表 按 


位 异 或 “两 个 整数 根据 二 进 制 位 进行 异 或 操作 〉，& 符 号 代表 求 和 操作 两 个 整数 根据 二 进 


制 位 进行 求 和 操作 ) ，| 符号 代表 按 位 或 操作 。 
在 Python 中 ， 有 关 数 值 的 运算 需要 注意 两 点 : 


@ 运算 的 优先 级 ， 紧 运算 最 高 ， 乘 除 位 运算 其 次 ， 加 减 最 后 。 


34 


@ 在 Python 中 ， 若 不 同 数值 类 型 在 单个 表达 式 中 混合 出 现时 ， 则 会 根据 需要 将 表达 式 
中 的 所 有 操作 数 转换 为 最 复杂 的 操作 数 的 类 型 ， 作 为 返回 值 的 类 型 。 复 杂 度 的 顺序 
是 int、float、complex。 下 面 给 出 一 个 简单 的 示例 : 


b> 

0 

>>> 1.0/3 
0.3333333333333333 
到 

0.0 

>>> 1%3 


>>> 1.0%3 


常量 类 型 


简单 类 型 均 为 常量 类 型 ， 也 就 是 说 这 些 类 型 对 象 一 旦 被 创建 ， 其 值 就 不 能 被 更 改 。 我 们 
号 〈=) 进行 新 的 赋值 操作 时 ， 实 际 上 ，Python 解析 器 是 创建 了 新 的 简单 类 型 ， 
并 将 该 变量 名 和 新 创建 的 对 象 关 联 起 来 。 使 用 Python 的 内 置 id0 函 数 〈 用 来 查看 对 象 在 内 存 
中 的 编号 的 函数 ) ， 就 可 以 清楚 地 看 到 这 一 点 。 例 子 3.5 将 演示 这 些 操作 。 


例子 3.5” 整 型 类 型 的 创建 和 更 改 


01 >>> a=3 

02 >>> id(a) 
03 1945071136 
04 >>> a=4 

05 >>> id(a) 
06 1945071168 
07 >>> b=3 

08 >>> id(b) 
09 1945071136 


10 >>>a=b+2 


11 >>>id(a) 
12 1945071200 


在 例子 3.5 中 ，a 刚 开 始 等 于 3， 它 的 id 结果 为 1945071136， 更 改 a=4 时 ， 它 的 id 结果 为 
1945071168， 这 表明 a 所 指向 的 对 象 发 生 了 变化 ， 因 为 a=4 这 个 操作 并 没有 让 原来 的 3 更 改 成 
4， 而 是 新 创建 一 个 数值 为 4 的 对 象 并 让 a 指向 这 个 新 对 象 。 在 例子 3.5 的 第 10~12 行 ，b+2 的 
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结果 为 5，a 又 指向 了 这 个 新 对 象 ， 而 原来 的 数值 对 象 4 仍然 存在 内 存 中 ， 并 没有 改变 。 


本 .与 ”序列 类 型 


在 实际 编写 Python 程序 的 时 候 ， 通 常 要 处 理 复杂 的 逻辑 ， 从 而 带 来 复杂 的 数据 结构 。 如 
果 使 用 简单 类 型 来 表达 复杂 的 数据 ， 就 会 存在 大 量 的 简单 数据 对 象 ， 存 放 和 管理 它们 将 成 为 
大 问题 。 容 器 类 型 就 是 用 来 存放 和 管理 各 种 对 象 的 类 型 ， 使 用 容器 类 型 ， 就 可 以 根据 程序 的 
需求 把 需要 处 理 的 复杂 数据 放 到 容器 中 。 容 器 提供 了 一 系列 的 方法 ， 可 以 用 来 访问 和 管理 这 
些 数 据 。 

容器 类 型 可 以 分 为 两 种 : 


@ ”序列 容器 ， 一 般 也 被 称 为 顺序 容器 ， 就 是 说 该 容器 是 将 存放 的 数据 按 顺序 放置 在 内 
存 区 中 ， 如 果 一 个 新 元 素 被 插入 或 者 已 存 元 素 被 删除 ， 其 他 在 同一 个 内 存 块 的 元 素 
就 必须 向 上 或 者 向 下 移动 来 为 新 元 素 提 供 空 间 ， 或 者 填充 原来 被 删除 的 元 素 所 占 的 
空间 ， 这 种 移动 影响 了 效率 。 

@ 关联 容器 ， 根 据 每 个 节点 来 存放 元 素 ， 容 器 元 素 的 插入 或 删除 只 影响 指向 节点 的 指 
向 ， 而 不 是 节点 自己 的 内 容 ， 所 以 当 有 数据 插入 或 删除 时 ， 元 素 值 不 需要 移动 。 


在 Python 中 ， 序 列 容 器 类 型 主要 有 6 种 ， 即 string、unicode、list (列表 ) 、tuple (元 
组 ) 、buffer、range; 关联 容器 类 型 主要 是 字典 类 型 和 集合 类 型 。 


本 .列表 类 型 


list 类 似 于 C 中 的 数组 、C++ 中 的 vector， 是 用 来 顺序 存储 数据 的 容器 ， 比 如 说 ， 一 周 七 
天 ， 可 以 表示 为 : 


>>> week=[ 'Monday', 'Tuesday', 'Wednesday', 'Thursday' ,'Friday', 


'Saturday', 'Sunday'] 


第 2 章 曾 简要 介绍 过 list， 本 节 会 详细 介绍 它 的 功能 和 方法 。 


3.6.1 创建 list 
创建 list 的 方法 很 简单 ， 使 用 中 符号， 中 间 的 元 素 用 


A=[1,2,3] 


隔 开 。 例 如 : 


向 
由 
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3.6.2 


list 的 元 素 访 问 
可 以 通过 下 标 来 访问 list， 下 标 从 0 开始 ， 不 同 于 其 他 语言 的 是 增加 了 负 下 标的 访问 ，-1 


代表 最 后 一 个 元 素 ，-2 代表 倒数 第 二 个 元 素 ， 以 此 类 推 。 下 面 给 出 一 个 简单 的 例子 : 


>>> a=[1y2y3] 


>>> a[0] 


>>> a[-2] 


区 


下 标 不 只 可 以 访问 list 的 单个 元 素 ， 也 能 通过 切片 操作 获得 一 个 list 的 子 list， 可 以 通过 


下 标 来 指定 范 


围 ， 一 个 指定 开始 位 置 ， 一 个 指定 结束 位 置 ， 中 间 加 冒号 分 隔 。 开 始 位 置 默 认 


为 0， 结 束 位 置 默认 为 -1。 需 要 特别 注意 的 是 : 指定 的 开始 位 置 包括 开始 元 素 本 身 ， 而 结束 
位 置 不 包括 结束 位 置 本 身 。 例 子 3.6 使 用 切片 操作 获得 列表 的 子 列表 。 
例子 3.6 子 列表 的 访问 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 


>>> 
>>> 
[3, 


a=[1,2,3,4,5] 
a[2:4] 

4] 

a[:] 

2 3r 4 51 
a[l:] 
| 
al=3s=1] 

4] 


3.6.3 ”列表 运算 

list 容器 支持 一 系列 的 运算 ， 包 括 加 法 、 乘 法 、 大 小 比较 等 运算 。 要 查看 list 支持 哪些 运 
算 ， 可 以 直接 在 IDEL 里 面 输入 help(list)。help 是 Python 的 自省 功能 之 一 ， 可 以 通过 help0 
函数 查看 Python 对 象 的 一 些 帮助 信息 。 例 子 3.7 通过 help 自省 功能 ， 获 得 了 列表 的 帮助 信 


息 。 


例子 3.7 通过 help 查看 list 支持 的 运算 


>>> help (list) 


Help on class list in module builtin : 


class list (object) 


listt) -> new List 


list(iterable) -> new list initialized from sequence's items 
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Methods defined here: 


_ Ccontains (...) 


XxX._ contains (y) < 一 > y in x 


Melttem (rs 
xX._ delitem (y) <==> del x[y] 


_delslice (...) 


XxX._ delslice (i, j) <==> del x[i:j 


Use of negative indices is not supp 


c=) 


xX. eq __(y) <==> x==y 


ge {oes 
XxX._ ge __(y) <==> x>=y 


_ getattribute _(...) 


xX.__getattribute _('name') <==> x.n 


getitem (se) 


X. getitem _(y) <==> x[y] 


# 省 略 部 分 结果 


] 


orted. 


ame 


在 HelpO 函 数 打印 出 来 的 list 对 象 信息 中 ， 类 似 了 


F xxx 这些 函 数 都 是 list 对 象 内 建 的 


一 些 类 的 特殊 方法 ， 其 中 大 部 分 函数 为 list 的 运算 操作 符 函 数 〈 类 似 于 C++ 中 的 
operation) 。 凡 是 支持 特殊 函数 的 对 象 ， 也 就 都 支持 对 应 的 运算 。 从 上 面 的 帮助 信息 可 以 发 
现 ，list 主要 支持 以 下 运算 操作 : 
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@ 实现 了 _add 函数 ，list 支持 加 法 运算 。 
实现 了 _contains ”函数 ，list 支持 in 操作。 
实现 了 _eq_ 函数 ，list 支持 一 判断 。 
实现 了 _ ge 函数 ，list 支持 >= 判 断 。 
实现 了 _ gt 函数 ，list 支持 > 判断 。 

实现 了 _iadd 函数，list 支持 二 操作 。 
实现 了 _imul 函数 ，list 支持 *= 操 作 。 


实现 了 _ le 函数，list 支持 < 一 操作 。 


帮助 信息 


例子 3.8 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
1 人 2 
bE 
14 
15 
16 
办 
18 
20 
21 
22 
23 
24 
25 
26 
2 
28 
29 
30 


实现 了 _ lt 函数，list 支持 < 操作 。 
实现 了 _mul 函数 ，list 支持 * 操 作 。 


实现 了 _ ne 函数 ，list 支持 (= 操作 。 


实现 “rmul 函数，list 支持 被 乘 操作 。 


还 有 一 些 其 他 的 方法 ， 比 如 ”getitem ， 则 是 通过 下 标 访问 该 对 象 的 实现 方法 ， 在 前 面 : 
已 经 讨论 了 操作 方法 ， 这 里 不 再 重复 叙述 。 


慌 


是 从 help 的 帮助 信息 中 获得 的 有 关 list 支持 的 运算 信息 ， 可 以 在 IDEL 里 根据 这 
对 列表 运算 进行 尝试 。 (例子 3.8 是 自省 出 来 的 列表 操作 运算 信息 。) 
list 的 操作 运算 


>>> a=[1,2,3] 


>>> a+4 

Traceback (most recent call last): 
Elile "<stdlio>"y dine Ly Tn 2 

TypeError: can only concatenate list (not "int") to list 

>>> a=[1,2,3] 

>>> a+[4,5,6] 

Lr 2 Br Mr Sr "Gl] 

>>> a+3 

Traceback (most recent call last): 
File "<atdio>"; TJine ls in 了 

TypeError: can only concatenate list (not "int") to list 

a 

False 

Si 

True 

>>> a==[4,5,6] 

False 

>>> a==[1,2,3] 

True 

>>> a>[4,5,6] 

False 

>>> a>[1,2,1] 

True 

>>> a>=[1,2,1] 

True 

>>> at+=[4,5] 

>>> print (a) 

| 


>>> a*2 
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3 
32 >>> print (a) 

区 5 

34 >>> a*=2 

35 >>> print(a) 

36 SA Ls i SR A SY 
37 >>> a!=[3,4,5] 

3 TTUe 

39 >>> 2*a 


40 | 


al >>> 三 二 22 
42 Traceback (most recent call last): 
43 File "<stdio>", line 1, in ? 


44 TypeError: can't multiply sequence by non-int 


45 >>> 


例子 3.8 调用 了 Python 的 各 种 运算 操作 。 需 要 注意 的 是 ， 各 操作 运算 的 对 象 类 型 有 限 
制 。 例 如 ， 第 2~12 行 ， 调 用 list 的 加 法 加 一 个 整数 就 触发 了 以 外 ，list 的 加 法 对 象 也 只 能 是 
list。 第 13~16 行 ， 演 示 list 的 in 操作 。 在 Python 的 语法 中 ， 关 键 词 in 表示 存在 的 意思 。3 in 
a 表示 判断 3 是 否 在 a 中 。in 的 反 用 法 是 not in。 第 30~35 行 ， 演 示 list 的 乘法 。list 的 乘法 是 
复制 list 中 元 素 的 快捷 方法 ， 需 要 复制 几 份 就 乘 以 几 。 


3.6.4 列表 的 方法 


除了 运算 操作 外 ， 列 表 还 支持 一 些 其 他 的 操作 方法 ， 同 样 可 以 使 用 help(list) 来 获得 那些 


方法 的 信息 。 方 法 名 称 前 面 不 带 _ 符号 的 方法 就 是 list 的 公 上 
省 信息 中 有 关 列 表 的 公用 方法 。 
例子 3.9 查看 list 的 公用 方法 


>>> help (list) 


Help on class list in module _ builtin : 


class list (object) 


| list() -> new list 


list(iterable) -> new list initialized from sequence's items 


1 
1 
| Methods defined here: 
| append(...) 

1 


L.append (object) -- append object to end 
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方法 。 例 子 3.9 是 摘录 了 list 自 


CE 


L.count (Value) -> integer -- return number of occurrences of value 


extend(...) 


L.extend (iterable) -- extend list by appending elements from the 
iterable 
index(...) 
L.index(value, [start, [stop]]) -> integer -- return first index of 
value 


last) 


insert(...) 


L.insert (index, object) -- insert object before index 
pop(...) 
L.pop([index]) -> item -- remove and return item at index (default 


remove(...) 
L.remove (value) -- remove first occurrence of value 


reverse(...) 


L.reverse() -- reverse *IN PLACE* 
SOrt(te = 
L.sort (cmp=None, key=None, reverse=False) -- stable sort *IN PLACE*; 


emp lr => Or 二 


Data and other attributes defined here: 


new = <built-in method new__ of type object> 


T. new (S, ...) -> a new object with type S, a subtype of T 


从 中 我 们 可 以 看 到 ，list 有 9 种 不 同 用 途 的 公用 方法 : 


append() 方 法 ， 在 列表 后 增加 对 象 。 

count() 方 法 ， 统 计 列 表 元 素 的 个 数 。 

extend() 方 法 ， 将 一 个 序列 对 象 转换 成 列表 ， 并 增加 到 该 列表 后 面 。 
index() 方 法 ， 返 回 查找 值 的 第 一 个 下 标 ， 如 果 找 不 到 查找 值 ， 则 抛 出 错误 。 
insert0 方 法 ， 插 入 对 象 到 指定 的 下 标 后 面 。 

pop0 方 法 ， 弹 出 列表 指定 下 标的 元 素 。 不 指定 下 标 时 ， 弹 出 最 后 一 个 元 素 。 
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运 


remove() 方 法 ， 删 除 列表 指定 的 值 ， 有 多 个 指定 的 值 在 列表 中 时 删除 第 一 个 。 
reverse() 方 法 ， 将 列表 元 素 顺序 倒置 。 

sort() 方 法 ， 对 列表 进行 排序 ， 排 序 的 方法 可 以 在 sort 的 参数 中 指定 ， 默 认 从 小 到 大 
排序 。 


上 面 的 公用 方法 ， 能 够 方便 对 list 做 各 种 操作 ， 并 且 能 够 用 list 模拟 其 他 的 数据 类 


比如 堆栈 (stack) 、 队 列 〈queue) ， 如 例子 3.10 所 示 。 
例子 3.10 ”用 list 模拟 堆栈 和 队列 


的 操作 。 
可 以 模拟 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
1 
2 
13 
14 
15 
16 
bh 
18 
% 
20 
21 
Ep 
2 
24 


>>> stack = [3, 4, 5] 
>>> stack.append(6) 
>>> stack.append(7) 
>>> stack 

[3, 4, 5, 6€6, 7] 

>>> stack.pop() 


>>> stack 
[3, 4, 5, €] 
>>> stack.pop() 


>>> stack.pop() 


>>> stack 

[3, 4] 

>>> queue = ["Eric", "John", "Michael"] 
>>> queue.append ("Terry") 

>>> queue.append ("Graham") 

>>> queue .pop (0) 

"Eric" 

>>> queue.pop (0) 

"John'" 

>>> queue 


'Michael', 'Terry', 'Graham'] 


第 1~15 行 模拟 的 是 堆栈 的 push 和 pop 操作 。 堆 栈 的 特点 是 “先进 后 出 ”， 使 用 list 的 
pop0 方 法 ， 将 列表 的 最 后 一 个 元 素 弹出 ， 就 可 以 模拟 堆栈 的 操作 。 第 16~24 行 模拟 的 是 队列 


3.6.5 


列表 


队列 的 特点 是 “先进 先 出 ”， 通 过 pop0 方 法 弹出 列表 第 一 个 元 素 〈 下 标 为 0) ， 就 
队列 的 “先进 先 出 ”。 


列表 的 内 置 函 数 (range、filter、map) 


除了 可 以 使 用 运算 操作 、 自 带 的 公用 函数 外 ， 还 可 以 使 用 Python 内 置 的 rangeO、 


filter0、map(O、reduce 函数 。 这 4 个 函数 有 着 不 同 的 用 途 。 
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(1) rangeO 函 数 的 作用 是 生成 一 个 整 型 序列 ， 有 3 个 参数 : 开始 数值 〈start) 、 结 束 数 
值 (stop) 、 累 进 大 小 〈step) ， 开 始 数值 默认 为 0， 累进 大 小 默认 为 1， 例 如 : 

>>> list(range(10)) 

9 

>>> list(range(1,10,2)) 


Ls 3 Br Te 9 
>>> 


(2) filter 过 滤 函 数 的 作用 是 对 列表 进行 过 滤 ， 只 保留 满足 filterO0 函 数 指定 要 求 的 元 素 ， 
例如 : 


>>> def f(x): return x %2 !=0 andx%3 != 0 


>>> list(filter(f, range(2, 25))) 
Dr 3 


(3) map 映射 函数 的 作用 是 对 列表 的 每 一 个 元 素 映射 到 map0 函 数 指定 的 操作 ， 例 如 : 

>>> def cube(x): return x*x*x 

>>> list(map (cube, range (1, 11))) 

[1, 8, 27, 64, 125, 216, 343, 512, 729, 1000] 

map 同时 可 以 处 理 多 个 列表 ， 但 是 需要 注意 的 是 map 处 理 多 个 列表 时 ， 这 些 列表 的 元 素 
应 该 相同 ， 否 则 就 会 抛 出 异常 ， 例 如 : 


>>> def add(a,b): 


return a+b 


>>> list(map(add, [1,2,3],[4,5,6])) 

[5y 77 3] 

>>> list(map(ad, [1,2,3],[4,5])) 

Traceback (most recent call last): 
Eale "<atdlo>"s Line 1 


NameError: name "ad' is not defined 


(4) reduce 函数 是 reduce(function，sequence，starting_value)， 它 对 sequence 中 的 item 
顺序 迭代 调用 function， 如 果 有 starting_value， 还 可 以 作为 初始 值 调 用 ， 例 如 可 以 用 来 对 
list 求 和 : 


>>> def add(x,y): return x + Y 


>>> reduce(add, range(1, 11)) 

55 

>>> reduce (add, range(1l, 11), 20) 
35 
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3.6.6 ”列表 推导 式 

对 于 使 用 过 滤 和 映射 函数 去 生成 特定 要 求 的 列表 ，Python 提供 了 一 个 更 简洁 的 方法 一 一 
列表 推导 式 (List Comprehension) 来 完成 这 个 工作 ， 一 个 List Comprehension 通常 由 一 个 表 
达 式 以 及 一 个 或 者 多 个 for 语句 和 if 语句 组 成 ， 语 法 形式 类 似 于 [ <exprl> for k in 工 if 
<expr2> ]，for k in L 是 对 工 列 表 的 循环 ，if expr2 是 用 expr2 对 循环 的 元 素 k 做 过 滤 处 
理 ，exprl 则 是 返回 表达 式 。 例 子 3.11 列 出 了 列表 推导 式 的 具体 用 法 。 
例子 3.11 List Comprehension 的 用 法 


01 >>> a=[1,2,3,4,5] 
| 

03° [Sr Or 15y 20 25] 

04 >>> [kK*5 for Kk in a 1i€ a!l=s3] 
O05 [Sz LO 157 207 25] 

06 >>> [Ek*5 for Kk in a if Kk!=3] 
om Sr LO 20r 25] 

O08 >> ba "br ed ery 

09 >>> [k.upper() for k in b] 
TO MAD a BN DY 


这 种 方法 将 过 滤 和 映射 操作 合 二 为 一 ， 代 码 简 洁 很 多 ， 可 读 性 更 强 。 


元 组 类 型 
元 组 (tuple〉 类 型 通过 一 对 括号 “QO” 来 表示 ， 元 组 是 常量 的 list， 使 用 help(tuple)， 可 
以 获得 tuple 的 自省 信息 。 例 子 3.13 就 是 使 用 该 方法 获得 tuple 的 自省 信息 。 
例子 3.12 tuple 的 help 信息 


>>>help (tuple) 


Help on class tuple in module _ builtin : 


class tuple (object) 

tuple() -> an empty tuple 

tuple (iterable) -> tuple initialized from iterable's items 

If the argument is a tuple, the return value is the same object. 


Methods defined here: 


ao (ee 
x. add (Y) <==> x+y 
_Contains (...) 
人 
eq (-.-.-) 
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> 
_ge (-..-) 
xX._ ge __(y) <==> X>=Y 
getattribute (ss=:) 
x. getattribute ('name') <==> x.name 
Getitem (...) 
xX.__ getitem (y) <==> x[y] 
_ getnewargs _(...) 
getslice. Wned 
XxX. getslice (i, j) <==> x[i:j] 
Use of negative indices is not supported. 
有 | 
XxX._ gt __(y) <==> x>y 
_hash (...) 
x._ hash () <==> hash (x) 
= iters (C00) 
x._ iter () <==> iter (x) 
Te 
x._ le _(y) <==> x<=y 
_len (...) 
x._ len () <==> len (x) 
ta 
X. lt _(y) <==> x<y 
_mul (...) 
X. mul (n) <==> x*n 
ne 
XxX._ ne __(y) <==> x!=y 
repr. Cas 
XxX.__repr __() <==> repr (x) 
_rml (...) 
XxX._ rmul _(n) <==> n*x 
Data and other attributes defined here: 
new = <built-in method new__ of type object> 


T._ new (SS, ...) -> a new object with type S, a subtype of T 


通过 例子 3.12 的 help 信息 ， 可 以 看 出 tuple 和 list 的 区 别 : 


@@ tuple 和 1list 一 样 ， 支 持 下 标 和 切片 操作 (都 实现 getitem 和 getslice )。 
@ tuple 与 list 不 同 ， 不 支持 通过 下 标 和 切片 操作 更 改元 素 和 子 列 表 (tuple 没有 实现 
setitem 和 setslice ). 
@ tuple 支持 和 list 一 样 的 比较 运算 和 加 乘 运 算 ， 但 是 不 支持 +=、*= 操 作 (因为 tuple 
为 常量 类 型 ， 这 两 个 操作 都 是 更 改 自 身 的 操作 ) 。 
@@ tuple 不 支持 list 的 9 种 公用 方法 。 
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元 组 是 常量 类 型 的 list， 和 列表 的 区 别 在 于 ， 元 组 对 list 的 那些 更 改 自 身 元 素 的 操作 和 方 
法 都 不 支持 ， 元 组 一 旦 在 内 存 中 创建 ， 就 不 可 被 更 改 ， 这 是 它 和 list 最 大 的 区 别 ， 而 其 他 使 
用 方法 则 和 列表 一 样 ， 例 如 : 


S>>. a=(tly 2737 A735) 


> | 
>>> a[3] 


>>> b=a+(7,8) 

>>> print (b) 

ty 27 3 M7 Sr 77 BB) 

>>> b=a*2 

>>> Print (b) 
《下 


字符 串 类 型 


字符 串 可 以 看 成 特殊 的 元 组 ， 可 以 使 用 单 引 号 或 者 双 引 号 来 表示 字符 串 ， 例 如 : 


>>> strl='word' 


>>> str2="hello" 
对 于 特殊 字符 ，Python 使 用 转 义 字符 反 斜 杠 (\〉 来 表示 。 表 3-2 列 出 了 各 种 转 义 字符 。 
表 3-2 转 义 字符 


Yr 回 车 

At 水 平 制 表 符 

\ooo ooo 表示 八进制 字符 
\xhh hh 表示 十 六 进 制 字符 


当 需 要 输入 一 个 很 长 的 字符 串 时 ， 可 以 分 成 多 行 ， 用 反 斜 杠 来 连接 。 例 如 : 


>>> strl="hello "\ 
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"world"\ 
mpi" 


如 果 需 要 输入 一 个 非常 长 的 字符 串 ， 可 以 使 用 连续 的 三 个 双 引 号 ， 例 如 : 


i 
There is a way to remove an item from a list given its index 


instead of its value: the del statement 


字符 串 类 型 和 元 组 一 样 是 常量 类 型 ， 支 持 下 标 访问 、 切 片 、 比 较 运 算 、 加 乘法 等 运算 。 


字符 串 类 型 的 公用 算法 比 元 组 多 ， 主 要 分 为 以 下 几 类 。 “使 用 help(str) 可 以 查看 字符 


所 支持 的 公用 算法 。) 
1. 大 小 写 转换 


类 型 


大 小 写 转换 主要 包括 首 字符 大 写 〈capitalize) 、 全 部 转换 小 写 (lower) 、 全 部 转换 大 写 
(upper) 、 大 小 写 互 换 (swapcase) 、 单 词 首 字 母 大 写 其 他 小 写 〈title) 等 方法 。 下 面 是 应 用 


的 简单 例子 : 


>>> "this Is test".capitalize() 
Els Ee testy 

>>> "this is test" .lower() 
"Ehis Ls test" 

>>> "this is test".upper() 
'THIS IS TEST' 

>>> "This is Test".swapcase() 
'tHIS IS 七 EST'" 

>>> "his Ls Least titled) 

"This’ LT9. Tost 


2. 字符 串 的 搜索 


字符 串 搜 索 包括 的 方法 有 find、index、rfind、rindex、count、replace 等 函数 。find 是 从 


左 向 右 查找 ， 并 返回 找到 第 一 个 字母 的 下 标 。rfind 是 从 右 向 左 查找 。index 和 find 
似 ,不同 之 处 在 于 ，find0 方 法 找 不 到 时 返回 -1，index 则 抛 出 一 个 异常 。 例 如 : 


>>> str2="ni ok hello ok why" 


SS str2. finadtoky 

气 

>> str2 .rfind("ok™") 

2 

S53> str2.find("ok2") 
= 

>>> str2.index("ok2") 


Traceback (most recent call last): 


法 类 
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File "<stdio>"; line 1; in ? 


ValueError: substring not found 
3. 字符 串 的 替换 


字符 串 蔡 换 包 括 的 方法 有 replace (替换 ) 、strip 〈 去 掉头 尾 指定 的 字符 ) 、rstrip( 从 右 
边 开 始 ) 、lstrip (左边 ) 、expandtabs( 用 空格 取代 tab 键 ) 。 例 如 : 


>>> a="as1234567" 
>>> a.strip("as") 
11234567" 

> 人 小 
"I234567" 

> eh 
'as1234567"' 

>>> a.replace ("as", "dd") 
'dd1234567"' 

>>> b="ni bb ss" 
>>> b.expandtabs (1) 


"ni bb ss' 

4. 字符 的 分 隔 

split0 方 法 可 以 根据 指定 的 字符 ， 把 一 个 字符 串 截断 成 列表 。splitlines0 可 以 将 一 个 字符 
根据 换行 符 截 断 列 表 ， 例 如 : 

> a 

S22 oDLLE 

Le i a ea 

>>> b="123\n456\n789" 


>>> b.splitlines() 
| 


5. 字符 判断 功能 
符 判断 功能 主要 是 以 下 几 种 : 


本 


字 
@ startwith (prefix，start[,end] ) ， 判 断 一 个 字符 串 是 否 以 prefix 开头 。 
@ endwith (suffix[,start[,end]] ) ， 判 断 一 个 字符 串 是 否 以 suffix 结尾 。 
@ isalnum0O， 判 断 是 否 由 字母 和 数字 组 成 ， 至 少 有 一 个 字母 。 

@ isdight0， 判 断 是 否 全 是 数字 。 

@ isalpha0， 判 断 是 否 全 是 字母 。 

量 isspace0， 判 断 是 否 由 空格 字符 组 成 。 

@ islowerO， 判 断 字 符 串 中 的 字母 是 否 全 是 小 写 。 

@ isupper0， 判 断 字 符 串 中 的 字母 是 否 全 是 大 写 。 
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® istitle( 


)， 判 断 字符 串 是 否 为 首 字母 大 写 。 


字典 类 型 


字典 是 Python 中 关联 型 的 容器 类 型 ， 字 典 的 创建 使 用 大 括号 身 的 形式 ， 字 典 中 的 每 一 个 


元 素 都 是 一 对 ， 
点 。 


每 对 包括 key 和 value 两 部 分 ， 中 间 以 冒号 隔 开 。 对 于 key， 需 要 注意 以 下 两 


(1) key 的 类 型 只 能 是 常量 类 型 。 

key 必须 为 常量 类 型 数值， 不 含有 可 变 类 型 元 素 的 元 组 、 字 符 串 等 ) ， 不 能 用 可 变 类 
型 做 key 值 ， 例 如 列表 作为 字典 的 key， 因 为 key 必须 保持 不 变 ，key 的 用 途 是 作为 字典 的 索 
引 值 ，Python 根据 该 值 去 存放 数据 。 


(2) key 的 值 不 能 重复 。 
key 的 数值 在 一 个 字典 中 是 唯一 的 ， 不 存在 重复 的 key 值 。 


可 以 通过 


省 功能 来 获得 有 关 字 和 典 的 帮助 信息 ， 通 过 help(dicb 就 可 以 获得 字典 的 详细 信 


息 。 根 据 字典 


和 自省 信息 ， 可 以 看 到 字典 的 使 用 细节 ， 包 括 字 典 的 创建 方法 、 字 典 所 支持 的 


操作 运算 、 字 出 


所 支持 的 公用 操作 方法 等 。 


3.9.1 字典 的 创建 
创建 字典 的 语法 为 {key:value,keyl:valuel .……… }， 例 如 : 


>>> fruit 


={1:'"'apple',2:'orange',3:'banana',4:'tomato'} 


从 dict 的 帮助 信息 上 可 以 发 现 ，dict 还 支持 以 下 创建 方法 。 
(1) dict0 创 建 一 个 空 字典 ， 例 如 : 


>>> fruit 
>>> print 


=dict() 
(fruit) 


(2) 通过 一 个 映射 类 型 的 组 对 生成 dict: 


>>> a={1: 
>>> b=dic 
>>> print 


{1: "one' 


'one',2:'two',3:'three'} 
t(a) 

(b) 

A 


(3) 通过 序列 容器 生成 队列 (序列 容器 的 元 素 必须 为 两 个 元 素 的 列表 或 者 元 组 ): 


22> dict( 


Cia one 


[(1,'one'), (2, 'two'), (3,'three')]) 
2 two'y 3 "three’} 
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(4) 通过 输入 方法 参数 (参数 格式 为 name=value) 创建 字典 : 


>>> dict (one=1,two=2,three=4, four=4) 


{OnE A "Ehreevs ds "EWOus 27 “oners 1 


3.9.2 ”字典 的 操作 
在 dict 的 帮助 信息 中 ， 可 以 查看 dict 所 支持 的 操作 方法 和 运算 ， 主 要 有 以 下 几 类 。 
(1) 通过 key 值 作为 下 标 来 访问 value 值 。 


>>> a={1:'one',2:'two',3:'three’'} 
>>> a[2] 


'two' 
(2) 各 种 比较 运算 (一 、!=) 。 在 Python 3 中 dict 不 支持 大 小 比较 : 


>>> a={l1l:'one',2:'two',3:'three'} 


>>> b={1:'one',2:'two',3:'tiree'} 


>>> a==b 
False 
>>> al=b 
True 


(3) 清空 字典 (clear0 方 法 ) : 

>>> a.clear() 

> 

的 

(4) 删除 字典 某 一 项 (pop0、popitem0 方 法 ) : 


S33>, Dalct={ Ll ar Sc 
>>> bdict.pop (1) 


>>> bdict.popitem() 

(2 be) 

>> 

(5) 序列 访问 方法 : 提供 序列 访问 字典 的 方法 。items0 方 法 返回 一 个 列表 ， 列 表 中 是 
(Ckey，value) 的 元 组 ，iteritems、iterkeys、itervalues 返回 迭代 器 对 象 ，keys0 方 法 返回 一 个 以 
key 为 元 素 的 列表 。 例 如 : 


S3> bdict=tl ay SD ScrA dS or} 


s 


>>> bdict.items () 
dict items(l (ls a)s (2 37 en)s (4s QT 
>>> for a in bdict.items(): 


print (a) 
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章 ”Python 的 内 


可 .1 0 集合 类 型 


集合 类 型 是 在 Python 2.3 版 本 以 后 才 新 增加 的 ， 有 可 变 的 集合 和 不 可 变 的 集合 两 种 类 
型 。 集 合 类 型 的 作用 可 以 用 一 句 话 来 概括 : 无 序 并 唯一 地 存放 容器 元 素 的 类 型 。 集 合 类 型 里 
面 可 以 存放 各 种 类 型 的 对 象 〈 特 点 是 无 序 存 放 并 且 不 能 重复 存放 ) 。 


3.10.1 集合 的 创建 


set( 方 法 用 来 创建 可 变 集合 。frozenset 用 来 创建 不 可 变 集合 。 


S02 
集合 方法 的 运算 3 


(1) 并 是 将 两 个 集合 的 元 素 合并 在 一 起 ， 可 以 
(2) 交 是 求 两 个 集合 都 公有 的 元 素 ， 可 以 


集合 的 方法 和 运算 


要 是 并 、 交 、 差 、 补 、 判 断 子 集 。 


union0 方 法 或 者 | 运算 。 
用 intersection0 方 法 或 者 & 运 算 。 


(3) 差 是 求 一 个 集合 比 另 一 个 集合 多 或 者 少 的 元 素 ， 可 以 用 difference0 方 法 或 者 减法 运算 。 


(4) 补 是 求 两 个 集合 中 不 为 交集 的 元 素 ， 可 以 | 


symmetric_difference() 方 法 或 者 运用 人 ^ 


运算 来 判断 。 
(5) 判断 子 集 就 是 判断 一 个 集合 是 否 是 另 一 个 集合 的 子 集 。 可 以 用 issubset() 方 法 或 者 
<= 运 算 来 判断 。 


计 ， 


集合 类 型 的 操作 演示 如 例子 3.13 所 示 。 
例子 3.13 ”集合 类 型 的 操作 


>>> 


a=set ([1,2,3,4]) 
b=set ([2,3,5,6]) 
a.difference (b) 
4 

a 

4} 

alb 

2 3 My -Sy GF 
agb 

3} 

a^b 

4, 5, 6} 

a>=b 


False 


> 


开始 编程 : 文本 统计 和 比较 


本 节 将 使 
得 到 两 个 英文 文档 使 用 
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有 差异 的 行 号 和 内 容 。 


前 面 所 介绍 的 各 种 内 建 类 型 实现 一 个 完整 的 例子 : 对 两 个 英文 文档 进行 统 


了 多 少 单词 、 每 个 单词 的 使 


【本 节 代 码 参 考 : C03\PyMerge.py】 


频率 ， 并 且 对 两 个 文档 进行 比较 ， 


3.11.1 需求 说 明 

在 日 常 工作 中 ， 经 常 需要 对 文本 进行 统计 和 比较 ， 特 别 是 在 多 人 协作 编写 文档 和 代码 的 
时 候 ， 要 经 常 性 地 进行 文本 统计 和 比较 ， 这 样 才能 保证 不 会 错误 地 覆盖 文档 和 代码 ， 通 常会 
使 用 Araxis Merge 软件 来 进行 文本 比较 ， 本 节 将 使 用 Python 实现 一 个 简单 的 Merge 程序 。 


3.11.2 需求 分 析 
本 节 要 实现 的 程序 取 名 为 PyMerge。 它 需要 实现 两 个 功能 模块 :统计 和 比较 。 
@ ”统计 功能 : 主要 是 统计 总 词汇 数 和 每 个 词汇 的 数目 。 
@ ”比较 功能 : 主要 是 比较 两 个 文本 的 差异 ， 需 要 忽略 空 行 和 空格 的 影响 ， 也 就 是 因为 
多 个 空 行 或 者 空格 产生 的 文本 差异 不 应 该 列 为 文本 差异 。 


3.11.3 ”整体 思 

PyMerge 程序 主要 有 两 大 功能 : 统计 和 比较 。 可 以 分 开 分 析 这 两 个 功能 的 思路 ， 统 计 功 
能 的 关键 是 如 何 存 放 词 汇 和 词汇 数 ， 比 较 功 能 的 关键 是 如 何 剔 除 空 行 和 空格 的 影响 。 

@ ”统计 功能 的 思路 。 

统计 功能 ， 包 括 两 个 功能 : 总 词汇 数 统计 和 每 个 词汇 的 使 用 次 数 统计 。 可 以 将 每 个 词汇 
作为 key 保存 到 字典 中 ， 对 文本 从 开始 到 结束 ， 循 环 处 理 每 个 词汇 ， 并 将 词汇 设置 为 一 个 字 
典 的 key， 并 将 其 value 设置 为 1， 如 果 已 经 存在 该 词汇 的 key， 说 明 该 词汇 已 经 使 用 过 ， 就 
将 value 累加 1。 

@@ ”比较 功能 的 思路 。 

比较 功能 是 对 两 个 文本 逐 行进 行 比较 ， 在 比较 一 行 时 忽略 空格 的 影响 。 在 实现 这 个 功能 
的 时 候 ， 首 先 要 将 文本 分 成 一 行 一 行 的 ， 对 每 一 行进 行 处 理 ， 忽 略 空格 的 个 数 ， 将 字符 串 里 
有 效 字符 转换 成 列表 ， 然 后 进行 比较 。 


3.11.4 具体 实现 

3.11.3 节 分 析 了 功能 实现 的 思路 ， 统 计 功 能 是 将 词汇 放 到 字典 类 型 中 ， 用 字典 的 key 来 
存放 单词 ， 用 value 来 存放 个 数 ， 而 比较 功能 则 是 使 用 字符 串 分 隔 成 列表 的 公用 方法 。 

1. 统计 功能 的 具体 实现 


统计 功能 就 是 将 一 个 文本 的 每 个 字符 作为 key 值 ， 放 入 字典 中 。 以 下 代码 将 实现 文本 词 
汇 数 的 统计 。 


01 >>> readtxt=""" 


02 .、.. this 4s a test Exty 


ey can you see this ? 
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04 

05 >> 

06 >>> readlist=readtxt.split() 
07 >>> dict={} 


08 >>> for every word in readlist: 


[' > if every word in dict: 
Re dict[levery word]+=1 
VF else: 

Hl dict[levery word]=1 
13 


14 >5> print(lodrct) 


Too Ta ls TU TE Ss i mt ee est 


Ee 


第 6 行 代码 ， 对 文本 字符 串 readtxt 做 split 操作 ， 就 可 以 获得 该 文本 字符 串 的 所 有 词汇 ， 


每 个 词汇 都 作为 列表 的 元 素 返 回 。 第 8~12 行 代码 ， 循 环 处 理 词汇 列表 ， 将 词汇 作为 dict 的 
key， 如 果 key 已 经 存在 ， 就 将 value 值 累加 1， 和 否则 将 value 设置 为 1。 


法 定 


上 面 实现 的 文本 统计 的 代码 需要 封装 起 来 给 整个 程序 使 用 ， 可 以 使 用 函数 封装 《使 用 语 
义 def ”functionname(): 函数 就 可 以 了 ) 。 以 下 代码 对 上 述 代码 进行 函数 封装 。 
def wordcount (readtxt): 
dict={} 
readlist=readtxt .split() 
for every word in readlist: 
if every word in dict: 
dict[levery word]+=1 
else: 
dict[levery word]=1 


return dict 


2. 文 本 比较 功能 
文本 比较 首先 需要 将 文本 字符 串 分 成 一 行 一 行 的 ， 使 用 字符 串 splitlines0 方 法 ， 可 以 将 


一 个 字符 串 按 行 分 成 一 个 列表 ， 删 除 列表 中 的 空 元 素 和 空白 字符 元 素 ， 再 将 两 个 文本 进行 循 
环比 较 。 以 下 代码 将 实现 文本 比较 功能 。 
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01 #!/usr/bin/env Python3 
02 def testcmp (sText, dText): 


03 cmpList = [] 

04 sLineList = [] 

05 for line in sText.splitlines(): 

06 if not line.isspace() and line!=”"”: 
07 sLineList.append (line) 

08 dLineList = [] 


09 
10 
了 下 
了 2 
13 
14 
15 
16 
17 
18 
19 
20 
21 
2 之 
世 入 
24 
25 
26 


for line in dText.splitlines(): 


IE not line.isspace() and line!=””: 


dLineList.append (line) 
sLen = len(sLineList) 
dLen = len(dLineList) 
for step in range (max(sLen, dLen) 


Es 


sWordList = sLineList[step] .split() 


except IndexError as e: 
print ("sfile is end") 
sLineList.append("") 

ty 


dWordList = dLineList[step] .split() 


except IndexError as e: 
print ("dFile is end") 
dLineList.append("") 

if sWordList != dWordList: 


从- 


cmpList.append((step, sLineList[step], dLineList[step])) 


上 述 代 码 的 实现 逻辑 主要 包括 : 


第 4~11 行 代码 ， 对 两 个 文本 按 行 划分 。 


第 16~21 行 代码 ， 将 文本 每 一 行 转换 成 列表 ， 和 转换 过 程 中 忽略 空白 字符 。 
第 25~26 行 代码 ， 比 较 结果 ， 如 果 不 相等 ， 就 写 信息 到 列表 cmpList 中 ， 以 供 函 数 


返回 信息 。 


3.11.5 文本 读 写 
前 面 实现 的 两 个 函数 分 别 用 来 进行 文本 统计 和 文本 比较 ， 但 是 还 需要 实现 从 文本 文件 中 
读 取 字 符 串 的 功能 、 读 文件 功能 。Python 内 置 了 file 类 型 来 实现 读 文件 功能 。 读 者 可 以 先 使 


SS 


(1) file 类 型 的 创建 


file 类 型 使 
名 。mode 是 读 写 模式 


日 help(file) 来 查看 file 类 型 的 详细 信息 ， 里 面 说 明了 file 类 型 的 几 个 主要 操作 方法 。 


file0 方 法 创建 ， 包 括 3 个 参数 : name、mode、buffering。name 是 指 文件 
[模式 是 只 读 ，w 是 可 写 ，a 模式 是 接 在 文件 的 末尾 写 ，b 是 写 二 进 


制 文件 ，+ 则 表示 可 读 也 可 写 。buffering 设置 文件 读 写 缓存 ，0 表示 不 设置 ，1 表示 设置 ， 也 
可 以 自行 指定 缓存 大 小 。 
(2) 文件 读 写 

file 类 型 提供 了 read0 和 write0 来 读 写 文件 。read0 可 以 读 取 文 本 文件 到 字符 串 ，writeO 则 


将 字符 串 写 到 文件 中 


o 


在 这 个 应 用 案例 中 ， 我 们 只 需要 读 文件 到 字符 号 


中 ， 使 有 


下 面 的 代码 就 可 以 : 
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>>> open file=open (filename) 


>>> file txt=open file-read() 


3.11.6 ”命令 行 参数 

比较 两 个 文本 ， 需 要 将 两 个 文本 的 名 字 传 给 程序 。 本 程序 是 命令 行程 序 ， 可 以 通过 命令 
行 参数 传送 文本 名 称 。 所 谓 命令 行 参 数 ， 就 是 运行 命令 后 所 带 的 参数 。 在 UNIX 系统 中 ， 程 
序 大 多 带 有 命令 行 参数 。 在 Window 系统 下 ，cmd 窗口 中 也 可 带 命令 行 参 数 。 这 里 演示 一 个 
在 UNIX/Linux 的 shell 下 运行 的 命令 : 


ls =a /dev 


上 面 的 ls 命令 类 似 于 Window 下 的 dir 命令 ， 用 来 参看 某 个 目录 或 者 文件 的 信息 。 在 1s- 
a/dev 中 ，ls 为 程序 名 字 ，-a /dev 是 命令 行 参数 。 
命令 行 参 数 包 括 以 下 两 部 分 : 


(1) 命令 行 选项 (option) 

在 ls-a/dev 命令 中 ，-a /dev 为 命令 行 参 数 ，-a 为 命令 行 选项 ， 一 般 程序 用 来 标志 出 参数 
的 作用 。 命 令 行 选 项 一 般 习惯 有 两 种 : 短 选项 和 长 选项 。-a 是 短 选项 ， 由 一 个 减 号 和 一 个 字 
母 组 成 ， 等 价 于 --all 长 选项 。 长 选项 由 两 个 减 号 和 若干 个 字母 组 成 。 下 面 的 两 个 命令 行 参数 
是 等 价 的 。 

ls -all /dev 


ls -a /dev 


(2) 选项 参数 (option augument) 
命令 行 选项 后 面 跟 的 是 具体 的 参数 。 命 令 行 选项 用 来 说 明 是 什么 参数 ， 选 项 参数 说 明 参 
数 的 具体 值 。 例 如 : 


1s -a /dev 

-a 是 命令 行 选项 ，/dev 是 选项 参数 ， 用 来 说 明 命令 行 选项 的 具体 参数 值 。 

在 Python 中 ， 读 取 命 令 行 参数 很 方便 。Python 标准 库 optparse 模块 来 读 取 命令 行 参数 。 

该 模块 是 一 个 强大 、 灵 活 、 易 用 、 易 扩展 的 命令 行 解释 器 。 使 用 optparse 模块 ， 只 需要 很 好 

的 代码 ， 就 可 以 给 程序 添加 专业 的 命令 行 接口 。 
optparse 是 Python 标准 库 模 块 ， 而 不 是 内 置 模块 ， 使 用 前 需要 使 用 import 导入 该 模块 。 

例如 : 


>>> import optparse 
optparse 用 法 分 成 三 步 : 
(1) 创建 OptionParser 对 象 。 


parser = optparse.OptionpParser() 
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(2) 添加 参数 选项 。 


parser.add option("-f", "--file",action="store", type="string", 


dest="filename",default=" ./’) 


为 optparse 模块 添加 参数 选项 ， 使 用 add_option0 方 法 ， 包 括 6 个 参数 值 ， 下 面 介绍 其 中 


的 5 个 主要 参数 : 

@ 第 一 个 是 短 选项 ， 通 常 是 一 个 减 号 加 一 个 字母 。 

@ 第 二 个 是 长 选项 ， 通 常 是 两 个 减 号 加 一 个 说 明 参 数 作 用 的 代词 。 

@ action 表示 对 命令 行 选项 后 的 参数 做 的 操作 。action 的 参数 有 三 种 : store、 
store_true、store_false。store 表示 会 将 参数 值 保存 到 dest 所 指定 的 变量 中 。 对 于 不 
需要 参数 的 选项 ， 可 以 将 store 改 为 store _ture 或 者 store false。 设 置 为 store_ture， 
命令 行 参数 出 现 该 命令 选项 时 ，dest 所 指定 的 变量 会 被 设置 为 ture， 否 则 为 false; 
设置 为 store false 时 ， 当 命令 行 参数 中 出 现 该 命令 选项 时 ，dest 所 指定 的 变量 会 被 
设置 为 false， 否 则 为 true。 

@ type 表示 参数 类 型 。 

@ default 设置 参数 默认 值 。 如 果 没 在 add_option 中 设置 default 这 一 项 ， 并 且 命 令 行 参 


数 中 也 没有 发 现 该 选项 ， 那 么 对 应 的 变量 值 就 是 None， 也 可 以 在 default 中 设置 默 
认 值 。 


(3) 解释 命令 行 。 
(options, args) = parser.parse args() 


parse_args 方法 会 将 命令 行 参数 解析 以 后 放 到 options 中 ， 就 有 了 命名 为 add-option0 方 法 
中 所 指定 的 dest 的 值 属性 名 。 可 以 直接 访问 options 来 得 到 命令 行 参数 的 值 。 例 如 : 


>>> print (options.filename) 


在 本 案例 中 ， 有 两 个 参数 ， 分 别 是 两 个 需要 互相 比较 的 文件 的 目录 和 名 字 ， 我 们 可 以 使 


用 下 面 的 代码 来 实现 命令 行 参 数 的 解析 : 


>>>parser.add option("-f","-—-filel",action="store",type="string",dest="filenamel") 


>>>parser.add option("-d","—file2",action="store",type="string",dest="filename2") 


3.11.7 程序 入 口 

在 其 他 计算 机 语言 中 ， 一 般 都 存在 一 个 main0 方 法 ， 作 为 程序 的 入 口 。 在 Python 中 ， 不 
存在 这 样 的 main， 当 运行 一 个 Python 文件 的 时 候 ，Python 解析 器 会 从 文件 开头 一 步 一 步 执 
行 代 码 ， 直 到 文件 结束 。 

为 了 代码 风格 规范 一 致 ，Python 也 有 和 main0 方 法 类 似 的 东西 ， 例 如 : 


E> name ==" main : 


print ("ok") 
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在 编写 Python 程序 的 时 候 ， 一 般 都 把 程序 的 入 口 放 在 _name =" main "代码 之 后 。 
在 前 面 小 节 ， 已 经 完成 文本 读 写 、 命 令 行 参数 分 析 、 文 本 统计 和 比较 部 分 的 功能 ， 本 节 将 把 
这 些 功能 模块 组 合 在 一 起 ， 完 成 一 个 完整 的 程序 。 

整个 程序 流程 是 ， 首 先 解析 命令 行 参 数 ， 然 后 读 取 文 本 ， 最 后 对 文本 做 比较 。 下 面 是 
PyMerge 主 逻 辑 的 功能 实现 : 


01 import optparse 
02 import sys 


03 

04 def wordcount (readtxt): 

05 dict = {} 

06 readlist = readtxt.split() 

07 for every word in readlist: 

08 if every word in dict: 

09 dict[levery word] += 1 

10 Glses 

LL dictl[levery word] = 1 

了 return dict 

he 

14 def testcmp(sText, dText): 

15 cmpList = [] 

16 sLineList = [] 

a for line in sText.splitlines(): 

18 If not line.isspace() and line != "": 
49 sLineList.append (line) 

20 dLineList = [] 

2 for line in dText.splitlines(): 

22 if not line.isspace() and line != "": 
A dLineList.append (line) 

24 sLen = len(sLineList) 

Eo dLen = len(dLineList) 

26 for step in range (max(sLen, dLen)): 

2 EE 

28 sWordList = sLineList[step] .split() 
这 信 except IndexError as e: 

30 print ("sfile is end") 

31 sLineList.append ("XXx") 

32 # sWordList = sLineList[step] 

33 i 

34 dWordList = dLineList[step] .split() 
35 except IndexError as e: 
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36 


Print("dqFile is end") 


入 dLineList.append ("YYY") 

38 # dWordList = dLineList[step] 

过 有 if sWordList != dWordList: 

40 cmpList.append((step, sLineList[step], dLineList[step])) 

41 

42 return cmpList 

43 

44 if name == "main "': 

45 parser = optparse.OptionParser() 

46 parser.add option("-s", "--sFile", action="store", type="string", 
dest="sFileName") 

47 parser.add option("-d", "--dFile", action="store", type="string", 
dest="dFileName") 

48 (options, args) = parser.parse args() 

49 with open(options.sFileName, 'r') as sFile, open(options.dFileName, 
'r') as dFile: 

50 # 开 始 统计 文件 

SE sText = SFile.read() 

石和 dText = dqFile.read() 

53 print ("文件 %s" Soptions.sFileName) 

54 print ("词汇 总 数 : sd" %len (wordcount (sText) ) ) 

5 print ("各 词汇 统计 : %s" %wordcount (sText)) 

56 

5S print ("文件 %s" Soptions.dFileName) 

58 print ("词汇 总 数 : %sd" slen (wordcount (dText))) 

59 print ("各 词汇 统计 : %s" %wordcount (dText)) 

60 

61 # 文 本 比较 

62 cmpList = testcmp(sText, dText) 

63 for diff in cmpList: 

64 print("%s %s: %s" %(options.sFileName, diff[0], diff[1])) 
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第 45~48 行 的 功 


第 49~52 行 负责 将 文本 读 到 字符 串 中 ， 使 用 with...as.…. 的 方式 扣 
不 存在 、 文 件 无 法 打开 等 问题 。 如 果 文 件 无 法 
第 53~59 行 完 成 对 两 个 文本 的 词汇 总 数 和 各 词汇 数 的 统计 ， 使 有 


print("%s %s: %s" %(options.dFileName, diff[0], diff[2])) 


台 E 目 
尼 征 


负责 解析 命令 行 参数 。 


成 词汇 统计 ， 打 印 词汇 统计 信息 。 


第 62~65 行 完 成 两 个 文本 的 比较 ， 使 


息 以 后 ， 将 比较 的 信息 打印 出 来 。 


源 丈 


E 常 打开 读 取 ， 程 序 直接 退出 


件 ， 避 免 了 文件 名 


上 并 显示 错误 。 


上 面 


入 wordcount 来 完 


testemp0 〇 函数 来 进行 文本 比较 ， 获 得 比较 结果 信 
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3.11.8 ”运行 效果 
将 testcmp、wordcount 和 程序 入 口 的 代码 合并 到 一 起 以 后 ， 保 存 文件 名 到 PyMerge.py， 
完成 该 程序 的 开发 。 可 以 在 Window 的 cmd 窗口 或 者 UNIX/Linux 的 shell 下 运行 如 下 命令 : 


python PyMerge.py -3 a.tzxt -d btxt 
运行 效果 如 图 3.1 所 示 。 


s python PyMerge.py -s a.txt 
a.txt 


": 1, "bbb": 


3 了 .12 本章 小 结 


本 章 主 要 学 习 了 Python 的 简单 类 型 和 容器 类 型 。 读 者 通过 本 章 的 学 习 ， 应 该 熟练 地 掌握 
Python 的 简单 类 型 和 容器 类 型 用 法 。 在 学 习 本 章 的 过 程 中 ， 需 要 注意 以 下 几 点 : 


”Python 的 缩 进 要 使 用 4 个 空格 ， 不 可 用 Tab 和 空格 混用 。 

@ 要 多 使 用 help 和 id 这 样 的 自省 功能 ，Python 的 内 置 模块 和 标准 库 都 提供 了 详细 的 
自省 信息 。 查 看 这 些 自省 功能 ， 就 可 以 了 解 各 内 置 模块 和 标准 库 的 详细 用 法 。 

@ 字符 串 、 列 表 、 元 组 、 字 典 是 Python 编程 中 很 重要 的 4 种 数据 类 型 ， 要 熟练 掌握 它 
们 的 使 用 方法 。 

@ 可 变 类 型 和 常量 类 型 的 区 别 。 


学 习 完 本 章 以 后 ， 读 者 需要 回答 下 列 问题 : 


(1) 元 组 和 列表 的 区 别 是 什么 ， 何 种 情况 下 使 用 元 组 ， 何 种 情况 下 使 用 列表 ? 

(2) 字典 的 key 可 以 是 哪些 类 型 ， 不 可 以 为 哪些 类 型 ? 

(3) 假设 存在 一 个 几 百 年 的 家 族 ， 族 长 需要 用 一 个 程序 把 几 百 年 来 的 族谱 都 录入 到 计算 
机 中 ， 而 计算 机 需要 能 够 提供 查询 : 查询 家 族 某 代 某 个 人 的 个 人 情况 和 亲属 血缘 情况 。 使 
Python 来 编写 这 样 的 程序 时 ， 使 用 何 种 类 型 来 存储 族谱 信息 ， 如 何 存储 ? 

(4) 3.11 节 的 应 用 案例 是 用 来 对 英文 文档 进行 比较 的 ， 如 果 要 对 中 文 文档 进行 比较 ， 该 
如 何 处 理 ? 
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第 4 瘟 


第 4 章 
< 谊 程 控制 和 画 数 > 


上 一 章 介 绍 了 Python 常用 的 内 置 类 型 ， 本 章 将 会 深入 讨论 Python 的 流程 结构 和 函数 。 
上 一 章 在 讨论 内 置 类 型 的 过 程 中 ， 简 单 介 绍 了 使 用 for 循环 控制 结构 和 简单 的 函数 封装 功能 
模块 ， 本 章 将 讨论 更 多 控制 结构 和 更 多 的 函数 用 法 。 

本 章 的 主要 内 容 是 : 

@ ”控制 代码 的 执行 顺序 。 
循环 代码 。 
函数 的 使 用 。 
人 入 皇后 算法 。 


流程 控制 


自 一 代 大 师 Dijkstra( 第 七 届 图 灵 奖 得 主 ) 于 1968 年 发 表 的 著名 文章 《Go To Statement 
Considered Harmful》 和 否定 了 goto 的 用 法 ， 使 用 条 件 选择 结构 和 循环 结构 来 控制 程序 的 流程 已 
经 成 为 各 种 现代 计算 机 语言 的 基础 。Python 语言 也 不 例外 ， 不 过 Python 的 条 件 和 循环 结构 又 
和 其 他 语言 略 有 不 同 。 


4.1.1 选择 结构 

在 程序 执行 的 过 程 中 ， 时 常 依据 一 些 条 件 的 变化 改变 程序 的 执行 流程 。 改 变 程序 流程 的 
功能 ， 主 要 由 条 件 语句 配合 布尔 表达 式 来 完成 。 在 Python 中 ， 使 用 让 语句 来 实现 这 种 流程 先 
择 的 控制 。 例 如 : 


>>>if x==0: 


>>> print ("ok") 


如 果 x 等 于 0 就 会 打印 ok， 如 果 x 不 等 于 0 就 不 会 打印 ok。 对 于 需要 分 别 对 应 于 满足 和 
不 满足 条 件 来 执行 不 同 的 流程 程序 ， 可 以 使 用 关键 字 else 引出 另 一 个 程序 流程 。 例 如 : 


>>> if X==0: 
print ("x 等 于 0") 
=» GLaes 


print ("x 不 等 于 0") 


有 时 候 ， 程 序 的 分 支 可 能 是 三 个 或 更 多 。 此 时 ， 就 需要 用 elif 语句 引出 更 多 的 分 支 。elif 
语句 是 “else 这 ”的 缩写 ， 每 一 个 elif 语句 均 为 程序 引出 一 个 分 支 。elif 语句 的 数量 没有 限 
制 ， 例 如 : 


>>> if X==1: 


rint(t no 1 
。 elif x==2: 

Erint tnot 2™"y 
。 elif X==3: 

print (not 3 
。 elif x==4: 


print ("not 4") 


Python 会 依次 执行 让 语句 下 的 程序 按 顺 序 检查 条 件 表达 式 ， 当 找到 第 一 个 满足 要 求 的 表 
达 式 后 ， 执 行 此 分 支 内 的 语句 。 剩 下 的 条 件 ， 即 使 有 满足 要 求 的 ， 也 不 做 检查 。 需 要 注意 的 
是 ， 上 面 语句 中 的 最 后 一 个 分 支 是 elif x==4， 这 样 语法 上 虽然 没有 错误 ， 但 是 为 了 代码 更 规 
范 严谨 ， 一 般 在 编写 这 样 的 分 支 代码 时 ， 最 后 一 个 分 支 应 该 是 else， 例 如 : 


>>> if x==1: 

Brintt rot FE” 
。 elif x==2: 

Brint(t"not 2 
。 elif x==3: 

Brantt nat 3 
。 elif x==4: 

print ("not 4") 
。 else: 


print ("not 二 下 1 
最 后 else 分 支 用 于 对 于 不 满足 上 面 所 有 其 他 分 支 的 处 理 ， 这 样 不 会 漏 过 没有 处 理 的 选择 
情况 ， 如 果 对 于 不 满足 上 面 所 有 其 他 分 支 的 情况 不 做 任何 处 理 ， 可 以 使 用 pass 语句 来 说 明 不 
需要 做 特定 处 理 。 例 如 : 


>>> if x==1: 


Print( not Ey) 
。 elif x==2: 

Brantt"not 2"y 
。 elif x==3: 

Brint("not 3 
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= ©lif X==4: 
Print("not 4") 
» Slse3 


pass 


4.1.2 for 循环 结构 
在 上 一 章 ， 我们 大 量 使 用 for...in 来 访问 序列 类 型 和 字典 类 型 。Python 的 for 语句 依据 任 
意 序列 或 者 字典 中 的 子 项 ， 按 照 它们 在 序列 中 的 顺序 来 进行 迭 代 。 例 如 : 


>>> ab=["'a',1,3,4] 


>>> for x in ab: 


print (x) 


必 wPnm， 


需要 注意 的 是 ， 在 循环 过 程 中 ， 修 改 循环 的 序列 《〈 当 是 可 变 序 列 类 型 时 ) 是 很 不 安全 
的 ， 例 如 : 
>>> a=['a','b','c','d'] 
> Or KX Tn a 
if x=="'C": 
bb=a .pop (0) 
print (x) 


对 于 这 种 情况 ， 可 以 使 用 [:] 对 列表 进行 复制 。 当 b 是 一 个 列表 的 时 候 ，a=b[:]， 就 可 以 复 
制 b 的 列表 到 a。 需 要 特别 注意 的 是 ，a=b， 并 不 是 将 b 的 列表 复制 到 a， 只 是 让 a 和 指向 
同一 个 列表 对 象 ， 只 有 使 用 a=b[:] 语 句 才 是 创建 一 个 新 列表 对 象 复 本 ， 让 b 指向 它 。 例 子 4.1 
说 明 两 者 之 间 的 区 别 。 
例子 4.1 列表 的 复制 


01 >>> a=[1,2,3,4] 
02 >>> b=a 

03 >>> id(a) 

04 31427880 

05 >>> id(b) 

06 31427880 

07 >>> a-pop() 

08 4 
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09 >>> print (a) 


10 L231 
证 >>> print (b) 
FE 
13 >>> a=[1,2,3,4] 
14 >>> b=a[:] 
15 >>> id(a) 
16 31421424 

可 >>> id(b) 

18 31427560 

19 >>> a.pop() 
20 4 

21 >>> print (a) 
2 | 

之 党 >>> print (b) 
24 [SR 


从 上 面 的 代码 可 以 看 出 ， 使 用 b=a 时 ， 实 际 上 变量 a 和 b 所 指向 的 列表 是 同一 个 列表 
(因为 它们 的 对 象 id 是 一 样 的 ) ， 所 以 a 进行 pop 操作 ，b 的 列表 也 一 样 被 pop 了 ; 使 
b=a[:] 时 ，b 的 列表 是 复制 a 的 对 象 〈 可 以 看 到 它们 的 对 象 id 不 一 样 ) ， 对 a 做 pop 操作 ，b 
的 列表 并 没有 变化 。 

对 于 上 面 需 要 在 循环 中 修改 列表 的 情况 ， 可 以 使 用 复制 列表 的 技术 来 避免 修改 列表 带 来 
不 安全 循环 的 情况 ， 例 如 : 


>>> a=['a','b','c','d'] 


>>> for x in al[l:]: 
if x=="'C"': 
bb=a.pop (0) 
print (x) 


4.1.3 while 循环 结构 


while 和 for 一 样 ， 也 是 一 种 循环 结构 。 和 for 不 同 的 是 ，while 循环 的 条 件 取决 于 while 
后 面 表达 式 的 布尔 值 ， 例 如 : 
>>> i=0 
>>> while i<6: 
i+=1 


print (i) 


当 while 后 面 的 表达 式 为 真 时 ， 执 行 while 语句 下 的 代码 块 ， 否 则 执行 循环 结束 以 后 的 代 


码 。 


在 while 循环 中 ， 需 要 强制 退出 循环 的 时 候 ， 可 以 使 用 break 语句 ， 例 如 : 
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当 使 用 break 语句 时 ， 会 直接 退出 循环 ， 即 不 执行 循环 代码 块 下 面 的 部 分 ， 也 不 继续 执 
行 循环 处 理 ， 而 是 直接 跳 到 循环 结束 后 ， 执 行 循环 结束 后 的 代码 。 

continue 和 break 语句 的 区 别 是 ，continue 虽然 也 不 执行 循环 代码 下 面 的 部 分 ， 但 是 
continue 会 跳 到 循环 结构 的 循环 开始 部 分 ， 继 续 下 一 次 循环 。 例 子 4.2 列 出 两 个 关键 字 的 区 
别 。 
例子 4.2 break 和 continue 的 区 别 


26 
你 浊 
28 
之 休 
30 


31 >>> i=0 


wbhe' 


32 >>> While LT<6s 


3 print (i) 
3 i+=1 

35. aw if i==4: 
36 ... continue 
i 

38 © 

3 

40 2 

a 

42 4 

43 5 


从 例子 4.2 的 第 3 行 和 第 12 行 、 第 25 行 和 第 36 行 的 比较 情况 可 以 看 到 ，break 和 
continue 的 区 别 在 于 是 否 继续 执行 循环 。 这 一 点 和 其 他 计算 机 语言 非常 相似 。 
需要 注意 的 是 ，Python 的 循环 也 可 以 带 else 分 支 ， 这 一 语言 特性 是 其 他 语言 所 没有 的 ， 
用 起 来 也 非常 方便 ， 例 如 : 
>>> for i in range (6): 
print (i) 
国生 人 
print ("ok") 
循环 语句 的 else 分 支 是 可 有 可 无 的 ， 若 有 ， 则 表示 如 果 循环 语句 是 正常 结束 的 (不 是 使 用 
break 强制 结束 的 ) ， 就 执行 else 分 支 里 的 代码 块 。 例 子 4.3 解释 了 循环 语句 中 else 的 作 
例子 4.3 循环 语句 的 else 用 法 


01 >>> for i in range(6) : 
02 区 print (i) 

03 i lse: 

04 | brint("ok™) 

05 

06 

07 

08 

09 

10 

bh 


大 WNPO.: 
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例子 4.3 列 出 了 3 种 情况 : 正常 循环 ， 使 用 continue 的 循环 ， 使 用 了 break 的 循环 。 在 这 


3 种 循环 中 ， 前 两 种 正常 执行 循环 到 结束 ， 所 以 都 执行 了 else 分 支 的 代码 块 ， 而 break 强行 
结束 了 循环 ， 直 接 跳 到 循环 结束 代码 之 后 ， 没 有 执行 else 的 代码 块 。 


函数 


对 于 需要 重复 使 用 的 代码 功能 模块 ， 一 般 都 会 将 其 封装 成 函数 ， 以 提高 代码 的 可 读 性 ， 
使 得 程序 结构 整齐 清晰 。 


4.2.1 函数 的 定义 
在 Python 中 ， 定 义 函 数 的 语法 形式 如 下 : 
def <function name> ( <parameters list> ): 
<code block> 


其 中 ，def 用 来 声明 开始 定义 一 个 函数 ，function name 是 函数 的 名 字 ，parameters_list 是 
函数 输入 的 参数 ，code block 是 函数 的 功能 模块 代码 。 例 如 ， 当 需要 将 一 个 字符 串 中 的 字符 a 
和 b 替换 成 h 和 i 时 ， 可 以 将 该 功能 封装 成 函数 transchar: 

>>> def transchar(para str): 

if type (para str)==str: 
str l=para str.replace('a', ''h') 
str 2=str 1.replace('b',"i") 
et 

else: 


EtnaALSe 


>>> transchar ("abdbi") 
"hidiir 


4.2.2 函数 的 参数 

Python 的 函数 参数 使 用 方法 比较 灵活 ， 既 可 以 选择 参数 个 数 ， 也 支持 默认 值 ， 并 且 可 以 
自行 指定 赋值 顺序 。 总 的 来 说 ，Python 函数 的 参数 有 如 下 特点 : 

@ ”参数 有 默认 值 ， 填 写 参 数 时 个 数 可 选 。 

@ ”参数 的 赋值 ， 可 以 按照 参数 的 名 字 来 赋值 ， 赋 值 的 顺序 可 以 改变 。 

@ ”支持 不 定 个 数 参数 ， 可 以 编写 类 似 于 C 中 printf 那样 的 肖 数 。 

例如 ， 需 要 编写 一 个 用 于 计算 长 方 体 体 积 的 函数 ， 包 括 3 个 参数 : 长 、 宽 、 高 。 对 于 这 
样 一 个 函数 ， 可 以 定义 如 下 : 
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>>> def getvolume (len,width,height): 
return len*width*height 


也 可 以 设 定 这 3 个 参数 ， 这 样 没有 指定 参数 值 ， 会 使 用 默认 值 进行 调用 ， 例 如 : 


>>> def getvolume (len=0,width=0,height=0): 


return len*width*height 


>>> getvolume (12,13) 
0 


并 且 参 数 的 赋值 顺序 也 不 一 定 是 固定 的 ， 只 要 指定 名 字 调 用 就 没有 问题 ， 例 如 : 


>>> getvolume (width=12, height=2,1len=3) 
Te 


如 果 使 用 过 C 语言 的 printt)， 就 会 对 可 变 参数 的 意义 比较 了 解 。printftO 函 数 只 需要 按照 
指定 的 格式 ， 就 可 以 输入 任意 个 数 的 参数 。Python 的 print0 用 法 和 C 语言 的 printf0) 颇 为 相 
似 。 例 子 4.4 是 Python 的 print0 方 法 和 C 语言 的 printtO 函 数 的 比较 。 
例子 4.4 Python 的 print() 方 法 和 C 语言 的 printf() 函 数 


01 >>>print ("你 好 ") 


02 你 好 
03 >>> print ("%s" % "你 好 ") 
04 你 好 


05 >>> print ("%s,%s" %(" 你 好 ", "中 国 ")) 

06 ”你 好 ,中 国 

07 >>> print ("%s,%s,%d" $$ ("你 好 ", "中 国 ", 2018)) 
08 ”你 好 ,中 国 , 2018 


09 
10 printf ("你 好 ") # 以 下 是 c 语言 的 语句 
11 你 好 

12 printf ("%s", "你 好 ") 

13 ”你 好 

14 printf("%s,%s", "你 好 ", "中 国 ") 

15 ”你 好 ,中 国 


16 printf("%s,%s,%d", "你 好 ", "中 国 ", 2018) 
17 你 好 , 中国, 2018 
在 例子 4.4 中 ， 第 1 行 到 第 8 行 是 Python 的 print0 方 法 ， 第 10 行 到 第 17 行 是 C 语言 的 
printftO 函 数 。 从 中 可 以 看 出 ， 两 者 是 非常 相似 的 ， 不 同 的 是 ，print(O 方 法 不 是 Python 函数 。 
下 面 使 用 Python 的 不 定 参数 来 定义 一 个 和 C 语言 printf0 函 数 一 样 的 函数 : 


>>> def printf (format,*arg): 


print (format®%arg) 
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>>> printf ("你 好 ") 


你 好 

>>> printf ("%s,%s", "你 好 ", "中 国 ") 
你 好 , 中国 

>>> printf ("%s,%s,%d", "你 好 ", "中 国 ", 2018) 
你 好 , 中国 ,2018 

> 


在 Python 中 ， 不 定 参数 使 用 *arg 来 表示 ， 而 arg 实际 是 一 个 元 组 (tuple〉。 它 上 面 存放 
了 输入 的 参数 ， 例 如 : 


>>> def getchange (*arg) : 
Print (arg) 


>>> getchange (1,2,3) 

i | | 

>>> getchange ("a", "b") 
ar 


可 以 通过 访问 元 组 方法 来 访问 可 变 参 数 。 例 如 ， 编 写 - 


>>> def addall (*arg): 
total=0 
for arg one in arg: 
total+=arg_one 


return total 


>>> addall (1,2,3,4) 
10 
addall (1,2,3,4,8,9) 
2 


-个 累加 所 有 参数 的 函数 : 


对 于 可 变 参数 ， 除 了 使 用 *arg 来 表示 外 ， 也 可 以 使 


j**argv 来 表示 。 不 同 的 是 ， 使 


**argy 表示 时 ， 可 变 参 数 就 会 放 到 一 个 字典 中 ， 并 且 在 输入 参数 时 必须 说 明 参 数 的 名 字 ; 使 
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*arg 方法 ， 在 输入 参数 的 时 候 ， 不 能 使 


>>> getall (1) 

(1,) 

>>> getall (1,2) 
(1, 2) 

>>> getall (1,2,3) 
(1, 2, 3) 

>>> getalll (one=1) 
"one.: 3 


>>> getalll (one=1, two=2) 


Mor LOY 


参数 的 名 字 。 例 如 : 


固定 参数 和 可 选 参数 、 可 变 参数 可 以 组 合 起 来 。Python 优先 接受 固 


参数 ， 最 后 是 可 变 参 数 ， 所 以 *arg、**argv 只 能 够 放 到 参数 的 最 后 ， 
**argv 之 前 ， 可 变 参 数 只 能 放 到 固定 参数 后 面 。 例 如 : 


>>> def funexe (keyparam, chioce=1lv*argr **keywords): 


print (keyparam, chioce,arg, keywords) 


Snel rr 

a ey 

>>> funexe('a', 'b','c', 'e',three=3) 
Bb Nn er Ee 3 


4.2.3 函数 调用 和 返回 
可 以 使 用 函数 名 称 来 调用 函数 ， 例 如 : 
>2> funexel a Db rn eo oe rthnree=3). 
二 让 人生 有 下 全 全 下 3 人 
函数 名 称 本 身 也 可 以 作为 参数 传递 调用 ， 例 如 : 


>>> def addtwo (avb) : 


return a+b 


>>> addtwo (1, 2) 
| 

>>> addl=addtwo 
>>> add1l (3,5) 

8 


也 可 以 将 函数 名 作为 参数 传 给 另 一 个 函数 做 调用 ， 例 如 : 


>>> def test2 (fun,a,b): 


， 


return fun(avb) 


>>> test2 (addl,3,4) 


对 一 个 函数 ， 需 要 有 返 
None 类 型 。 例 如 : 


>>> def addtwo (a,b): 


3 


return a+b 


>>> print (addtwo (2,3)) 
5 
>>> def addtwo (a,b): 


定 参数 ， 然 后 是 可 选 
并 且 *arg 必须 放 到 


值 时 ， 可 以 使 用 retum 语句 。 若 不 使 用 retum 语句 ， 则 返回 为 


I 
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a+b 


>>> print (addtwo (2,3)) 


None 


4.2.4 lambda 函数 


lambda 函数 是 函数 式 编程 中 的 一 个 概念 。 函 数 式 编程 是 一 种 编程 典范 ， 不 同 于 C 语言 这 
样 的 命令 式 语 言 ， 它 将 电脑 运算 视 为 函数 (lambda 演算 ) 计算 的 过 程 。 最 早 的 函数 式 编程 语 
言 是 LISP， 现 代 的 函数 式 编程 语言 有 Haskell、Erlang 等 ， 函 数 式 编程 语言 在 人 工 智能 、 数 
据 挖 掘 、 算 法 设计 等 计算 机 领域 有 着 重要 的 作用 。 

可 以 简单 地 将 lambda 函数 理解 为 一 种 单行 的 匿名 函数 ， 例 如 : 

>>> b=lambda arb:a+b 

SS (2 

3 


需要 注意 的 是 ， 匿 名 函数 只 能 有 一 行 代码 ， 可 以 有 多 个 参数 ， 包 括 可 变 参数 ， 但 是 表达 
式 只 能 为 一 个 ， 并 且 只 能 为 简单 的 操作 。 更 本 质地 说 ， 后 面 的 表达 式 是 能 够 返回 一 个 值 的 ， 
不 能 返回 值 的 不 能 放 在 这 里 。 例 如 : 

>>> g = lambda x, y=0, z=0: X+Y+Z 

>>> g(4,5,6) 

1 

>>> (lambda x, y=0, z=0: x+y+2z) (1,2,3) 

6 


在 Python 中 ，lambda 函数 可 以 通过 一 些 技巧 来 实现 if 或 者 for 的 功能 ， 代 码 量 则 少 很 
比如 可 以 使 用 and 和 or 表达 式 来 代 蔡 让 语句 ， 例 如 : 


>>> def judage (al) : 


Fm 
b=3 
else 
b=2 
。 return b 
>>> f=lambda a: (a and 3 or 2) 


集合 这 些 lambda 函数 的 特性 ， 可 以 使 用 lambda 函数 以 更 短 的 代码 实现 一 些 需要 多 条 循 
环 选 择 语 句 实现 的 功能 。 例 子 4.5 给 出 求 质数 的 两 种 方法 ， 从 中 可 以 看 出 使 用 lambda 函数 和 
普通 函数 求 质数 的 区 别 。 

例子 4.5 求 质 数 的 两 种 方法 比较 


01 >>> 人 上 Ysprime tn)s 


02 sa mid = int(pow(n,0.5)+1) 
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03 i for i in range (2vmid) : 


04 i if nS 和 主 == 0 : return False 
05 2 return True 
06 


07 >>> primes=[] 

08 >>> for i in range(2,100): 

09 Ee, if isPrime(i): primes += [i] 

10 

11 >>> print (Primes) 

12 [2 S75r Tr Mlr 137 TT T9723 2Z97 Sl Be Ale 43 AT S53 S59 GL 
7 Ty 3 737 83r 89 97] 

3 >>> from functools import reduce 

14 >>> print(reduce (lambda l,y:not 0 in map(lambda x:y % x, 1) and 1l+[y] 
or 1l,range(2,100), [] )) 

学 bt27r 3 Sr Te TEs B37 LT1y LT9y 23 297 本 和 3333 
Sir Tle Tar I B37 B97 9] 

6 23 


第 1 行 到 第 11 行使 用 普通 的 函数 来 求 100 内 的 所 有 质数 。 第 14 行使 用 了 lambda 函数 方 
法 。 其 中 ，not 0 in map(lambda x:y %x,l) 表示 数 y 能 和 否 被 1 中 的 任何 一 个 数 整除 ， 继 而 返回 
1l+[y] 或 者 1， 这 和 第 4~5 行 的 代码 是 同一 个 作用 。 

对 于 习惯 了 命令 式 编程 的 人 来 说 ， 第 1~11 代码 虽然 较 长 ， 但 是 比较 清晰 易 懂 ， 容 易 维 
护 。 对 于 熟悉 函数 式 编程 的 人 来 说 ， 第 14 行 代码 不 但 简洁 ， 而 且 可 读 性 更 好 。Python 同时 
提供 了 这 两 种 编程 方式 和 支持 ， 有 具体 使 用 哪 种 ， 要 视 个 人 情况 而 定 。 


4.2.5 ”多 套 函数 
在 Python 中 ， 可 以 在 函数 内 部 定义 函数 ， 例 如 : 


>>> def getfun (x,y): 
def addfun(a,b): 
return a*b 


return addfun (x,y) 


>>> getfun (2,3) 

6 

对 于 嵌 套 函数 ， 内 层 函 数 可 以 访问 外 层 函 数 的 变量 ， 但 是 Python 没有 提供 由 内 而 外 的 绑 
定 措施 ， 所 以 在 使 用 内 层 函 数 访问 外 层 函 数 的 时 候 要 特别 注意 这 一 点 ， 以 免 逻 辑 出 错 。 可 以 
参看 下 面 的 例子 : 


>>> def getfun (x,y): 
a=3 


def test2(): 
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a=l 


return a 


>>> getfun(1,3) 
3 


在 上 面 的 代码 中 ，getfun0 函 数 的 变量 a 在 test2 


的 变量 a 还 是 绑 定 原来 的 数值 对 象 3。 


4.2.6 函数 的 作用 域 


在 Python 中 查找 变量 ， 有 一 个 所 谓 的 LGB 原则 : 
的 意思 ; G 是 global name space， 全 局 命名 空间 的 意 


2 


无 法 被 绑 定 ， 最 后 返 下 


工 是 local name space， 


的 结果 getfun0 


局 部 命名 空间 
B 是 buildin name space， 内 在 命名 空 


间 的 意思 。LGB 原则 是 指 ， 对 于 一 个 变量 名 称 ， 先 查找 局 部 命名 空间 ， 再 查找 全 局 命 


间 ， 最 后 查找 内 在 命令 空间 。 
例子 4.6 ”函数 作用 域 


01 >>> Var=[] 
02 >>> def test2 () : 


03 ee var=[1] 
04 = var.append (1) 
05 ee return var 


06 >>> 七 est2 () 


07 Be 

08 >>> print (var) 
09 [] 

10 >>> def test3(): 
1 Var.append (2) 
12 ... return var 
13 ses 

14 >>> test3() 

15. [23 

16 >>> print (var) 

pW | 


例子 4.6 中 的 第 3 行 代码 定义 一 个 变量 为 一 个 列表 。 该 变量 在 局 部 命名 空 


优先 级 最 高 ， 所 以 在 第 4 行进 行 append 操作 的 时 候 ， 应 该 对 局 部 变量 var 进 


行 


是 对 全 局 变量 var 进行 操作 。 第 11 行 没有 定义 局 部 变量 ， 所 以 append0 操 作 作 


量 Var 上 。 
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名 空 


间 下 ， 所 以 
操作 ， 而 不 
在 全 局 变 


4 .了 开始 编程 : 八 皇 后 算法 


在 4.1 和 4.2 节 中 讨论 了 Python 的 流程 控制 和 函数 的 用 法 ， 本 节 将 使 用 这 些 知识 点 来 实 
现 八 皇后 问题 的 算法 。 
【本 节 代 码 参 考 : C04\py_4.7.py】 


4.3.1 八 皇 后 问题 


八 皇 后 问题 : 在 8*8 国际 象棋 棋盘 上 ， 要 求 在 每 一 行 放置 一 个 皇后 ， 且 能 做 到 在 竖 方 
向 、 斜 方向 都 没有 冲突 。 国 际 象棋 的 棋盘 如 图 4.1 所 示 。 


& 


7 


6 


5 


4 


图 4.1 国际 象棋 棋盘 
八 皇后 问题 是 一 个 古老 而 著名 的 问题 ， 是 19 世纪 著名 的 数学 家 高 斯 于 1850 年 提出 的 : 
在 8*8 格 的 国际 象棋 上 摆 放 八 个 皇后 ， 使 其 不 能 互相 攻击 ， 即 任意 两 个 皇后 都 不 能 处 于 同一 
行 、 同 一 列 或 同一 斜 线 上 ， 问 有 多 少 种 摆 法 。 高 斯 认为 有 76 种 方案 。1854 年 在 柏林 的 象棋 
杂志 上 不 同 的 作者 发 表 了 40 种 不 同 的 解 ， 后 来 有 人 用 图 论 的 方法 解 出 92 种 结果 。 计 算 机 诞 
生 以 后 ， 八 皇后 问题 也 成 为 计算 机 数据 结构 和 算法 的 经 典 题目 。 


4.3.2 问题 分 析 

对 于 这 种 较为 复杂 的 算法 问题 ， 可 以 采用 逐步 试探 的 方法 ， 能 够 继续 前 进 ， 则 更 进 一 
步 ， 如 果 不 能 ， 就 换个 方向 尝试 ， 可 称 之 为 回溯 法 。 

首先 我 们 来 分 析 一 下 国际 象棋 的 规则 。 对 于 一 个 国际 象棋 的 棋盘 ， 每 一 个 点 ， 我 们 都 
一 个 坐标 来 表示 ， 这 里 采用 图 4.1 一 样 的 坐标 ， 左 下 角 为 (1，1) ， 右 上 和 角 为 (8，8) ,一 
个 皇后 (xy) 能 和 否 被 另 一 个 皇后 Cab) 吃 掉 主 要 取决 于 下 面 四 个 方面 : 


(1) x=a， 两 个 皇后 在 同一 行 上 。 


Ts 


(2) y=b， 两 个 皇后 在 同一 列 上 。 
(3) xty=atb， 两 个 皇后 在 同一 斜 向 正方 向 。 
(4) x-y=a-b， 两 个 皇后 在 同一 斜 向 反方 向 。 


有 了 上 面 的 规则 ， 可 以 先 从 第 一 个 皇后 开始 分 析 ， 如 果 将 第 一 个 皇后 放 到 (1，1) 格 
中 ， 那 么 根据 规则 : 


(1) 第 二 皇后 可 以 放 在 (2，3) 、 (2，4) 到 (2，8) 的 任 一 个 ， 现 在 假设 放 到 (2， 
cb 

(2) 第 二 皇后 放 到 (2，3) ， 那 么 第 三 个 皇后 只 有 (3，5) 、 (3，6) 到 (3，8) 这 四 
种 可 能 可 选择 。 现 在 假设 放 到 (3，5) 。 

(3) 第 三 个 皇后 放 到 (3，5) ， 那 么 第 四 个 皇后 只 有 (4，2) 、 (4, 7) 、 (4，8) 这 
三 种 可 能 可 选 ， 假 设 放 到 (4，2) 中 。 

(4) 第 四 个 皇后 放 到 〈4，2) ， 那 么 第 五 个 皇后 只 有 (5，4) 和 (3$，8) 这 两 个 地 方 可 
选 ， 假 设 放 到 (5，4) 中 。 

(5) 第 五 个 皇后 放 在 〈5，4) ， 那 么 第 六 个 皇后 没有 安全 的 位 置 可 放 。 


在 摆 到 第 六 个 皇后 时 ， 就 会 无 法 再 继续 下 去 了 ， 这 时 回 到 放 第 五 个 皇后 的 第 二 个 选择 
(5，8) ， 然 后 继续 尝试 第 六 个 皇后 ， 发 现 仍然 没有 安全 的 位 置 ， 只 好 再 回 到 放 第 四 个 皇 
后 ， 继 续 第 四 个 皇后 的 其 他 可 能 。 以 此 类 推 ， 不 断 尝 试 ， 一 直到 放 最 后 一 个 皇后 。 

从 第 一 步 开 始 尝试 ， 逐 步 尝 试 后 ， 失 败 了 就 返回 上 一 个 步 又， 尝试 其 他 可 能 。 根 据 上 面 
的 分 析 ， 用 回溯 的 方法 解决 八 皇 后 问题 的 步 又 为 : 

(1) 从 第 一 列 开 始 ， 为 皇后 找到 安全 位 置 ， 然 后 跳 到 下 一 列 。 

(2) 如 果 在 第 n 列 出 现 死 胡同 ， 并 且 该 列 为 第 一 列 ， 那 么 棋局 失败 ， 否 则 后 退 到 上 一 
列 ， 再 进行 回溯 。 

(3) 如 果 在 第 8 列 上 找到 了 安全 位 置 ， 那 么 棋局 成 功 。 


4.3.3 程序 设计 

根据 4.3.2 小 节 对 八 皇 后 问题 的 分 析 ， 八 皇后 问题 的 步骤 在 于 三 步 : 找 安全 位 置 ， 继 续 下 
一 列 ， 如 果 下 一 列 找 不 到 安全 位 置 ， 就 进行 回溯 ， 直 到 八 个 皇后 都 找到 安全 位 置 为 止 。 

对 于 程序 设计 来 说 ， 首 先 设计 象棋 棋盘 的 数据 结构 ， 然 后 编写 安全 位 置 的 判断 ， 最 后 所 
写 回溯 的 功能 。 

(1) 象棋 棋盘 的 数据 结构 

可 以 用 列表 来 表示 一 个 象棋 棋盘 ， 每 个 列表 里 有 8 个 列表 ， 每 个 列表 有 8 个 元 素 ， 例 如 : 


>>> chess=[[0 for x in range(8)] for x in range(8)] 


>>> print (chess) 
[[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, oO, 
Oly LO Dr OF 0 Or Or Yr Oe Or Or Dr OF De OF Me Or [Qe OF 0 Wa ON Or Or 
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0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]] 


对 于 chess 列表 ， 初 始 元 素 值 均 为 0， 元 素 值 大 于 0 为 不 安全 、0 为 安全 。 


(2) 安全 位 置 的 判断 
根据 象棋 棋盘 数据 结构 的 设计 ， 凡 是 元 素 值 为 0 的 都 是 安全 的 ， 凡 是 元 素 值 不 为 0 的 都 
是 不 安全 的 。 可 以 使 用 下 面 的 函数 来 实现 这 个 功能 


>>> def judgedanger (chess,x,y): 


if chess[x] [y]==0: 
return True 
else: 
return False 
(3) 回溯 功能 的 实现 
回溯 的 功能 ， 需 要 先 判 断 安全 的 位 置 ， 然 后 将 皇后 放 到 安全 的 位 置 ， 在 将 皇后 放 到 安全 
的 位 置 时 ， 同 时 需要 将 该 皇后 的 吃 棋 范 围 记录 到 chess 列表 中 ， 这 样 下 一 步 可 以 根据 chess 殉 
表 来 判断 安全 的 位 置 ， 同 理 ， 在 该 位 置 被 认为 无 效 ， 需 要 回溯 的 时 候 ， 同 样 需要 将 棋 的 范围 
位 置信 息 清除 ， 恢 复 到 放 皇 后 之 前 的 状态 。 
实现 记录 吃 棋 范 围 信息 的 记录 ， 可 以 使 用 如 下 代码 : 


>>> def setdanger (chess,x,y): 


for col in range(len(chess)): 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row]+=1 
elif row==y: 
chess[col] [row]+=1 
elif col+row==X+y: 
chess[col] [row]+=1 
elif col-row==xX-y: 
chess[col] [row]+=1 
else: 


5 pass 
上 面 的 代码 根据 皇后 吃 棋 的 四 个 判断 规则 对 棋盘 列表 的 每 个 位 置 做 判断 ， 如 果 皇 后 可 以 
吃 到 ， 就 将 位 置 值 加 1， 表 示 该 位 置 不 再 安全 。 

对 于 清除 吃 棋 的 范围 位 置信 息 ， 使 用 相反 的 逻辑 思路 。 和 记录 吃 棋 范 围 信息 相反 ， 它 将 
可 以 吃 到 的 位 置信 息 减 1， 减 到 0 时 表示 该 位 置 安全 ， 可 以 放 皇 后 。 


皇后 


>>> def erasedanger (chess,x,y): 
for col in range(len(chess)): 
for row in range(len(chess[0])): 


二 本 GE 一 次 


人 


chess[col] [row] -=1 


elif row==y: 


chess [col] [row]—=1 


elif col+row==x+y: 


chess[col] [row] -=1 


elif col-row==Xx-y: 


chess [col] [row] -=1 


else: 


pass 


于 回溯 中 的 吃 棋 范 围 信息 记录 。 


位 置 的 函数 : 


在 上 面 实 现 了 记录 吃 棋 位 置信 息 和 清除 吃 棋 位 置信 息 的 函数 后 ， 就 可 以 将 这 两 个 函数 用 


本 漳 过 程 中 需要 经 常 判 断 下 一 行 是 否 有 安全 位 置 ， 所 以 先 编写 一 个 判断 一 行 中 有 无 安全 


>>> def judgecol (chess,col1): 


for row in range(len(chess[col1])): 


if judgedanger!( 
break 
else: 
return False 


return True 


chess, col,row): 


在 这 些 代 码 的 基础 上 ， 可 以 使 
如 下 : 


回溯 法 。 按 照 4.3.2 小 节 对 回溯 规则 的 分 析 ， 回 溯 的 步 又 


(1) 将 第 n 个 皇后 放 到 一 个 安全 的 位 置 。 
(2) 将 n 皇后 的 吃 棋 范 围 标 出 ， 尝 试 放置 n+l 皇后 的 安全 位 置 。 
(3) 如 果 n+l 皇后 无 安全 位 置 ， 就 回溯 到 n 皇后， 让 n 皇后 清除 吃 棋 范 围 ， 尝 试 下 一 


个 安全 位 置 ， 重 复 第 (2) 步 。 


根据 上 面 回 溯 步 又 的 分 析 ， 可 以 得 到 如 下 代码 : 

01 >>> def tryqueen (chess,col,flag,result) : 

02 Se flag[0]=True 

03 ee if col==8: 

04 Sa print{("Find™") 

05 i BISBEE 

06 A 间 所 judgecol (chess,col) : 

07 I for row in range (len(chess[col])) : 

08 i if judgedanger (chess,col,row): 

09 #print "ok”"+str(col}t": "tetr (row) 
10 setdanger (chess, col, row) 

计 二 result.append( (col,row)) 

12 tryqueen (chess, col+1, flag, result) 
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bb if flag[0]==False: 


14 i erasedanger (chess, col, row) 
15 i result .pop() 

ES lL3es 

blsr /oT flag[0]=False 


例子 4.7 是 对 上 面 回溯 三 段 分 析 的 实现 。 第 6 行 代码 判断 该 皇后 是 否 还 有 安全 位 置 ， 如 
果 有 ， 就 开始 尝试 放置 到 第 一 个 安全 位 置 ， 在 第 9 行 成 功放 置 到 安全 位 置 ， 第 10 行将 该 皇后 


的 吃 棋 范围 标 出 来 ， 接 着 在 第 12 行 放置 下 一 个 皇后 ， 如 果 下 一 个 皇后 没有 安全 位 置 


(用 flag 


标志 来 表示 ) ， 就 在 第 14 行使 用 erasedanger 清除 吃 棋 范 围 信息 ， 该 皇后 将 尝试 下 一 个 安全 


位 置 ， 然 后 重复 类 似 的 步骤 。 一 直到 8 个 皇后 全 部 放 到 安全 的 位 置 〈 代 码 第 4 行 ) ， 
皇后 问题 的 一 个 解 。 


4.3.4 问题 深入 


求 出 八 


在 4.3.3 小 节 中 ， 经 过 分 析 ， 已 经 可 以 使 用 函数 求 得 八 皇 后 问题 的 一 个 解 ， 那 么 如 何 取得 


八 皇后 问题 所 有 的 92 个 解 呢 ? 
在 上 一 小 节 的 代码 中 ， 回 溯 结 束 的 条 件 是 ， 当 第 8 个 皇后 可 以 放置 到 象棋 棋盘 中 


P 时 ， 函 


数 将 是 否 有 安全 位 置 的 标志 设置 为 Trme， 这 样 尝试 的 过 程 就 结束 了 。 如 果 修 改 回溯 结束 的 条 
件 为 : 在 第 8 个 皇 放置 到 象棋 棋盘 后 打印 出 结果 列表 ， 并 且 将 标志 人 为 地 设置 为 没有 安全 位 
置 〈 将 fag[0] 设 置 为 False) ， 那 么 情况 就 如 同 没 有 找到 解 一 样 ， 函 数 会 回溯 上 一 次 尝试 的 地 
方 ， 尝 试 下 一 个 可 能 ， 因 为 回溯 结束 条 件 中 的 标志 被 人 为 地 设置 为 没有 找到 ， 这 样 函数 就 会 


尝试 所 有 的 可 能 ， 也 就 可 以 找 出 所 有 的 解 。 
下 面 的 代码 是 对 八 皇 后 所 有 解 的 求解 。 


01 >>> def tryqueen(chess,col,flag,result): 


02 ee flag[0]=True 

03 se if col==8: 

04 区 有 和 print (result) 

05 加 flag[0]=False 

06 se else: 

07 人 至 乞 judgecol (chess,col): 

08 SS for row in range (Jen(chess[col]l)) : 

09 ee if judgedanger (chess,col,row): 

证 本 #print "ok"+Str (CoL)+":"+St (row) 
半生 ee setdanger (chess, col, row) 

h result.append( (col,row)) 

hn tryqueen (chess, col+l1, flag, result) 
5 if flag[0]==False: 

p> erasedanger (chess, col, row) 
i result .pop() 

"3 Slaes 


9 


18 2 flag[0]=False 


修改 部 分 主要 是 第 4-6 行 ， 第 4 行 开 始 打印 结果 列表 ， 第 5 行将 标志 设置 为 False， 这 样 


tryqueenO 函 数 就 会 一 直 尝 试 下 去 ， 直 到 尝试 了 所 有 可 能 ， 找 出 八 皇后 问题 的 某 个 解 。 


4.3.5 问题 总 结 


法 。 


八 皇 后 问题 是 在 计算 机 算法 上 的 一 个 经 典 题目 ， 解 决 的 算法 也 很 多 ， 最 简单 的 是 穷 举 
穷 举 法 是 对 八 皇 后 所 有 位 置 的 可 能 进行 一 一 判断 〈 总 共有 8 的 8 次 方 个 可 能 ) ， 然 后 从 


中 得 到 符合 要 求 的 92 种 可 能 。 本 小 节 使 用 的 是 较为 复杂 的 算法 : 回溯 法 。 相 比 穷 举 法 ， 回 淹 
法 的 算法 性 能 更 好 一 些 ， 实 现 要 复杂 一 些 。 例 子 4.7 是 用 Python 实现 八 皇后 回溯 算法 的 完整 
代码 。 


明 PPTTTTTTT TTT TT 
本 例 的 算法 有 一 些 缺 陷 ， 并 不 能 实现 八 皇后 的 所 有 解 ， 这 里 只 是 用 回溯 法 和 简单 的 函数 : 
给 读者 演示 一 种 求解 的 过 程 ， 等 读者 学 完 所 有 内 容 后 ， 可 以 再 利用 一 些 高 级 内 容 实现 更 : 
好 更 完善 的 算法 。 : 


例子 4.7 八 皇 后 问题 的 Python 回溯 实现 
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def setdanger (chess,x,y): 
for col in range (len(chess)) : 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row]+=1 
elif row==y: 
chess[col] [row]+=1 
elif col+row==x+y: 
chess[col] [row]+=1 
elif col-row==x-y: 
chess[col] [row]+=1 
else: 


pass 


def erasedanger (chess,x,y): 
for col in range(len(chess)): 
for row in range(len(chess[0])): 
if col==x: 
chess[col] [row]—=1 
elif row==y: 
chess[col] [row]—=1 
elif col+row==Xx+y: 


chess[col] [row]—=1 


流程 
控 ; 
制 和 函 
数 


tryqueen (chess,0,flag,result) 


Cy 本 章 小 结 
本 章 讨 论 了 Python 的 流程 控制 和 函数 的 相关 知识 点 ， 在 综合 应 用 方面 列举 了 八 皇后 问题 
的 求解 方法 。 在 学 习 本 章 的 过 程 中 ， 需 要 注意 的 是 : 
@ ”Python 的 for 用 法 和 其 他 语句 颇 为 不 同 。 
@@ ”Python 的 循环 结构 也 可 带 else 语句 ， 这 是 Python 语言 的 特性 。 
@ 使 用 谋 套 函数 时 ， 目 前 Python 还 不 支持 对 外 层 变 量 的 绑 定 。 
学 习 完 本 章 ， 读 者 可 以 思考 如 下 问题 : 
(51) 如何 用 穷 举 法 求解 八 皇后 问题 ? 
(2) 如 果 是 在 一 个 m*n 的 棋盘 上 放置 n 个 皇后 ， 该 如 何 求解 ? 
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s8 5 音 


第 5 章 
< 类 和 和 对象 > 


在 前 面 章 节 的 应 用 案例 中 ， 分 析 具 体 应 用 时 都 是 以 数据 为 中 心 ， 将 一 个 大 的 功能 分 成 几 
个 模块 ， 把 一 个 复杂 的 问题 分 解 到 若干 子 问题 函数 中 逐个 解决 ， 这 种 方法 称 为 结构 化 编程 模 
式 。 这 种 模式 以 数据 为 中 心 进行 分 析 和 模块 开发 ， 使 得 代码 的 重用 性 、 灵 活性 、 扩 展 性 都 不 
足以 满足 软件 日 益 复杂 的 需求 。 为 了 解决 这 个 问题 ， 面 向 对 象 的 程序 设计 (Object Oriented 
Programming，OOP) 就 产生 了 。 阅 读本 章 需 要 一 些 UML 基础 知识 ， 读 者 可 以 做 一 些 前 置 阅 
读 工作 ， 利 用 互联 网 了 解 一 下 UML 的 基本 图 形 。 

本 章 的 主要 内 容 是 : 

@@ 面向 对 象 的 由 来 。 

@ Python 中 的 类 和 对 象 。 

@ 类 的 定义 和 应 用 。 


面向 对 象 


面向 对 象 Object Oriented) 是 一 种 编程 的 思想 ， 而 不 是 一 种 编程 语言 。 面 向 对 象 的 核心 
概念 就 是 抽象 (Encapsulation) 、 继 承 (Inheritance) 、 多 态 (Polymorphism)。 


5.1.1 面向 对 象 的 历史 

面向 对 象 是 从 20 世纪 90 年 代 才 开始 广泛 使 用 的 编程 模式 ， 但 是 面向 对 象 的 编程 思想 却 
相当 古老 ， 早 在 20 世纪 60 年 代 就 有 人 提出 了 面向 对 象 的 思想 ， 并 且 创 造 了 世界 上 第 一 种 具 
备 面 向 对 象 特性 的 语言 Simula-67。 在 20 世纪 70 年 代 ， 施 乐 帕 洛 阿尔 托 研究 中 心 (PARC) 
的 Alan Key 等 人 发 明了 第 二 代 面 向 对 象 SmallTalk， 更 是 影响 深远 ， 对 其 他 众多 的 程序 设计 
语言 的 产生 起 到 了 极 大 的 推动 作用 ， 例 如 C++、Java、Objective-C、Python、Ruby、C# 等 。 


5.1.2 面向 对 象 概述 
而 向 对 象 是 一 种 编程 思想 ， 提 倡 在 构造 软件 系统 的 时 候 使 用 贴近 真实 生活 的 思维 方式 来 


进行 设计 和 编程 。 在 面向 对 象 思想 中 ， 一 切 均 是 对 象 ， 每 个 对 象 都 有 它 的 属性 和 方法 ， 每 个 
对 象 都 可 以 通过 消息 互相 交互 。 

相对 于 传统 的 结构 化 编程 ， 面 向 对 象 更 贴近 真实 的 生活 ， 因 为 在 真实 生活 中 ， 并 不 是 以 
数据 为 中 心 ， 而 是 含有 各 种 各 样 的 东西 对象) 。 例 如 ， 一 个 人 去 超市 购买 东西 ， 那 么 在 真 
实生 活 中 ， 这 样 一 个 活动 实际 是 由 顾客 、 商 品 、 售 货 员 等 不 同 的 几 个 对 象 来 相互 发 生 联系 的 
一 个 过 程 。 在 编写 这 样 一 个 计算 机 程序 的 时 候 ， 以 顾客 、 商 品 、 销 售 员 为 对 象 进行 分 析 ， 显 
然 比 以 商品 的 价格 、 销 售 、 顾 客 的 数量 等 数据 为 中 心 进行 分 析 更 容易 理解 一 些 。 
向 对 象 的 方法 在 代码 重用 性 、 灵 活性 、 扩 展 性 上 都 要 比 结构 化 编程 模式 更 好 一 些 。 例 
如 ， 编 写 一 个 超市 的 销售 程序 。 结 构 化 编程 模式 以 数据 为 中 心 ， 关 心 的 是 数据 ， 例 如 商品 数 
量 、 价 格 、 库 存 、 销 售 总 数 等 。 采 用 这 种 方法 就 会 将 一 个 超市 的 销售 程序 分 成 更 小 的 若干 模 


块 ， 如 图 5.1 所 示 。 
进货 
商品 总 数 


i 


销售 总 额 一 | 饥 管 


图 5.1 超市 销售 程序 的 结构 化 分 析 


采用 结构 化 的 编程 思想 ， 将 超市 的 销售 活动 分 解 成 3 个 功能 模块 来 完成 ， 如 果 这 个 超市 
销售 程序 不 需要 再 扩展 功能 ， 倒 也 没什么 问题 ， 但 是 软件 的 一 大 特点 就 是 随 业务 变化 快 ， 更 
新 和 扩展 功能 更 是 如 此 。 例 如 ， 超 市 要 求 程序 员 对 该 程序 增加 会 员 的 功能 ， 在 销售 的 时 候 会 
员 可 以 对 特定 商品 进行 打折 优惠 ， 这 时 程序 员 就 倒 考 了 ， 只 能 修改 销售 模块 ， 增 加 有 关 会 员 
的 逻辑 ， 还 要 增加 会 员 和 折扣 数据 的 处 理 ， 这 些 都 需要 在 原 有 的 代码 基础 上 做 改动 ， 当 然 不 
会 是 一 件 轻 松 的 事 。 

面向 对 象 的 编程 则 没有 这 个 问题 。 面 向 对 象 的 编程 思想 本 来 就 以 对 象 为 分 析 的 出 发 点 ， 
超市 的 销售 活动 可 以 看 成 顾客 、 售 货 员 、 钱 柜 、 货 架 、 商 品 这 几 个 不 同 的 对 象 互相 交互 的 过 
程 : 顾客 从 货架 上 取出 商品 ， 付 钱 给 售货员 ， 售 货 员 把 钱 放 进 钱柜 ， 新 的 商品 到 了 ， 放 到 对 
应 的 货架 。 图 5.2 所 示 就 是 按 这 种 分 析 得 到 的 结果 。 
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正 


扩展 了 。 


新 改造 数据 流程 ， 了 


图 5.2 超市 销售 程序 的 面向 对 象 分 析 
为 面向 对 象 的 模式 更 贴近 真实 的 生活 ， 所 以 当 需 求 变化 的 时 候 ， 也 就 能 很 方便 地 做 


展 功能 : 对 顾客 进行 分 类 处 理 ， 对 会 员 做 折 和 
非 会 员 进行 非 折 扣 处 理 。 这 样 的 功能 改造 对 结构 化 分 析 模 型 来 说 是 不 简单 的 事情 一 一 需要 重 
[ 作 量 比较 大 ; 对 面向 对 象 模型 来 说 ， 则 较为 方便 ， 
的 继承 特性 ， 对 顾客 类 进行 改造 就 可 以 了 ， 不 需要 去 更 改 整个 框架 。 图 5.3 是 使 


例如 ， 超 市 销售 程序 需要 扩 


图 5.3 顾客 类 的 改造 


图 


0 处理， 对 


面向 对 象 
继承 对 顾 


5.3 在 原来 的 模型 上 为 顾客 新 建立 两 个 子 类 。 所 谓 子 类 ， 就 是 继承 了 父 类 的 属性 


E 和 方 


法 ， 顾 客 有 两 个 方法 (购买 商品 和 付款 〉， 那 么 会 员 顾 客 和 非 会 员 顾 客 作为 他 的 子 类 ， 天 然 


有 了 和 顾客 一 样 的 方法 ， 这 就 叫 继承 。 


对 了 


顾客 ， 他 付款 的 情况 和 普通 顾客 不 一 样 ， 他 买 东西 可 以 打折 ， 付 得 更 少 一 点 ， 


那么 会 员 顾客 的 类 可 以 在 他 父 类 的 基础 上 进行 修改 ， 他 的 付款 方法 可 以 和 父 类 的 付款 方法 不 
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一 样 。 售 货 员 在 收 钱 时 ， 会 自动 根据 顾客 的 情况 调用 不 同 的 付款 方法 ， 这 就 叫 多 态 。 

有 了 继承 和 多 态 ， 对 超市 销售 程序 的 改造 就 无 须 那 么 伤 筋 动 骨 了 ， 主 流程 不 变 ， 只 不 过 
为 顾客 类 加 了 两 个 子 类 ， 而 售货员 又 能 根据 顾客 类 的 不 同 ， 自 动 调用 他 们 的 付款 函数 ， 所 以 
其 他 部 分 代码 都 无 须 更 改 ， 这 就 是 面向 对 象 的 好 处 。 


5.1.3 面向 对 象 小 结 

简单 地 说 ， 所 谓 面向 对 象 编程 模式 ， 就 是 以 对 象 为 中 心 来 设计 和 开发 程序 ， 也 就 说 将 现 
实 的 软件 需求 抽象 成 不 同 的 对 象 和 对 象 之 间 的 交互 过 程 ， 并 且 按 照 现 实 中 的 流程 搭建 不 同 对 
象 之 间 交 互 的 模式 。 

传统 的 结构 化 设计 ， 着 重 于 数据 和 算法 ， 一 般 在 编写 时 ， 主 要 精力 都 放 在 算法 的 设计 和 
编写 上 。 面 向 对 象 设 计 更 看 重 对 象 之 间 交 互 的 模式 ， 更 偏重 于 精心 设计 对 象 的 模式 ， 越 是 灵 
活 、 越 是 重用 性 高 的 模式 越 可 以 带 来 以 后 功能 扩展 升级 和 维护 的 方便 。 在 面向 对 象 的 不 断 应 
用 中 ， 有 些 模式 被 认为 具有 优秀 的 灵活 性 、 扩 展 性 、 重 用 性 ， 这 些 模式 就 成 为 经 典 的 设计 模 
式 ， 这 也 是 软件 设计 模式 的 由 来 (Design Patterns) 。 

对 于 面向 对 象 的 初学 者 来 说 ， 有 关 面向 对 象 的 思想 ， 只 需要 记 住 以 下 几 个 概念 就 可 以 了 ， 

@@ 类 

类 就 是 类 别 或 者 类 型 ， 是 用 来 定义 对 象 的 。 比 如 说 狗 是 一 种 动物 类 型 ， 有 一 只 小 狗 叫 旺 
旺 ， 旺 旺 就 是 对 象 〈 狗 类 的 对 象 ) ， 在 计算 机 术语 里 ， 又 称 旺 旺 是 狗 的 实例 化 。 

@ 对象 

对 象 是 类 的 实例 化 ， 是 以 类 为 模板 创造 出 来 的 ， 比 如 整数 类 型 是 一 个 类 ， 但 是 数值 3 是 
一 个 对 象 ， 是 一 个 整 型 对 象 ， 是 以 整数 类 型 为 模板 创造 出 来 的 。 

@ 继承 

继承 又 叫 泛 化 ， 是 可 以 使 一 个 类 获得 另 一 个 类 所 有 属性 和 方法 的 能 力 ， 被 继承 的 类 称 为 
父 类 或 者 基 类 ， 继 承 的 类 被 称 为 子 类 或 者 派生 类 ， 一 般 来 说 ， 父 类 比 子 类 更 抽象 ， 更 加 泛 
泛 ， 所 以 又 叫 泛 人 化。 例如， 水果 比 苹果 更 抽象 ， 车 比 汽车 更 泛泛 。 

@ 多 态 


通过 继承 联系 在 一 起 的 各 个 不 同类 的 对 象 可 针对 同样 的 消息 《方法 调用 ) 做 出 不 同 的 响 
应 ， 发 送 给 多 个 类 型 的 对 象 相同 的 消息 会 呈现 出 “多 种 形态 ”， 比 如 说 几何 形状 是 一 个 父 
类 ， 正 方形 、 圆 形 、 三 角形 、 和 矩形 是 它 的 子 类 ， 它 们 都 有 一 个 共同 的 方法 计算 面积 ， 虽 然 正 
方形 、 圆 形 、 三 角形 、 和 矩形 的 计算 方法 完全 不 一 样 ， 但 是 在 使 用 的 时 候 只 需要 调用 同样 的 计 
面积 的 方法 ， 它 们 会 按照 不 同 的 方式 来 计算 ， 使 用 者 无 须 关 心 它们 (各 种 形状 ) 具体 的 计 
节 ， 这 就 叫 多 态 。 


六 六 
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了 ,2 python 类 和 对 象 


虽然 Python 本 质 上 的 一 切 均 是 对 象 ， 但 是 在 使 用 形式 上 并 不 强制 程序 员 使 用 面向 对 象 的 
模式 来 编写 程序 ， 程 序 员 仍然 可 以 使 用 结构 化 的 编程 思路 ， 直 接 使 用 函数 等 。 在 Python 中 ， 
函数 也 是 一 种 对 象 ， 不 管 应 用 何 种 模式 来 使 用 ，Python 的 根源 仍然 是 面向 对 象 的 。 


5.2.1 类 的 定义 
类 由 属性 和 方法 组 成 。 在 Python 中 ， 使 用 关键 字 class 来 定义 类 ， 语 法 如 下 : 


class ClassName (father class name) : 


<statement-1> 


<statement-N> 


新 式 类 。 


其 中 ，ClassName 表示 自 定义 类 的 名 字 ，statement 是 类 成 员 表达 式 ， 可 以 为 属性 也 可 以 
为 方法 ， 例 如 : 
>>> class customer (object) : 
buy_dict={} 
def buyl(self,pro name,price): 


self.buy dict[pro name]=price 
在 上 面 的 例子 中 ， 定 义 了 类 的 名 字 (customer) ， 这 个 类 继承 于 父 类 object 类 。 它 有 两 
个 成 员 : buy_dict 是 属性 ，buy 是 方法 。 类 属性 定义 可 以 在 class 下 面 显 式 地 定义 ， 也 可 以 在 
方法 里 面 隐 式 地 定义 ， 例 如 : 


>>> class TestRA (object) : 


Value=0 
def printf (self): 
print (value) 
>>> Class TestB (object) : 
def printf (self): 
self.value=0 


print (self.value) 


TestA 和 TestB 都 有 属性 value， 只 不 过 一 个 是 在 class 下 显 式 地 定义 ， 而 另 一 个 是 在 


87 


TestB 的 方法 printt0 中 隐 式 地 定义 。 需 要 特别 注意 的 是 ， 在 方法 中 隐 式 定义 属性 的 时 候 ， 要 
在 属性 名 前 加 self， 这 是 显 式 和 隐 式 最 大 的 不 同 。 

类 方法 的 定义 和 函数 的 定义 非常 相似 ， 并 且 函 数 所 支持 的 调用 方法 ， 类 方法 也 全 都 支 
持 。 不 同 的 是 ， 类 方法 的 第 1 个 参数 必须 为 默认 的 self， 定 义 Python 类 方法 时 没有 带 self 的 
参数 是 最 容易 犯 的 错误 。 


类 方法 的 第 1 个 参数 必须 为 self， 要 特别 注意 


5.2.2 ”类 的 实例 化 

所 谓 实例 化 ， 就 是 创建 一 个 类 的 对 象 。 定 义 一 个 类 ， 只 是 造 出 一 个 类 型 ， 这 个 类 型 只 有 
实例 化 成 对 象 ， 才 有 真正 的 使 用 意义 。Python 有 很 多 内 置 的 类 型 ， 比 如 数值 类 型 、 列 表 类 
型 、 字 典 类 型 。 这 些 类 本 身 是 没有 用 的 ， 只 有 拿 它 们 去 定义 一 个 数字 〈 对 象 ) 、 一 个 列表 对 
象 、 一 个 字典 对 象 ， 才 有 真正 的 意义 。 同 样 的 ， 当 定义 一 个 类 时 ， 这 个 新 定义 的 类 型 是 没有 
用 的 ， 需 要 以 它 为 模板 去 创造 真正 可 以 使 用 的 对 象 。 

实例 化 一 般 通 过 直接 调用 类 名 方法 来 创建 ， 例 如 : 


>>> class TestA(object): 


value=0 
def printf (self): 


print (self.value) 


>>> a=TestA() 

> Hpritntty 

在 上 面 的 例子 中 ， 就 是 使 用 类 TestA 实例 化 了 一 个 对 象 a，a 拥有 TestA 定义 好 的 属性 和 
方法 ， 第 2 章 在 介绍 内 置 类 型 的 时 候 ， 实 例 化 那些 内 置 类 型 ， 都 是 使 用 内 置 语法 层次 来 实例 
化 ， 实 际 上 Python 任何 类 型 都 是 面向 对 象 意义 上 的 类 ， 所 以 都 可 以 使 用 通用 的 实例 化 方法 。 
例子 5.1 是 对 内 置 类 型 实例 化 的 展示 。 
例子 5.1 内 置 类 型 实例 化 


01 >>>a=1 


02 >>>b=int (1) 
03 >>>type (a) 

04 <class 'int'> 
05 >>> type (b) 
06 <class'int'> 
07 >>> a=1. 

08 >>>b=float (1) 
09 >>>type (a) 


0 olasa "tlioat> 
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1 
32 
下 六 
14 
15 
16 
Rd 
18 
19 
20 


>>> type (b) 

<class "float'> 

>>> a={1:2,2:3} 

>>> b=dict ([(1,2), (2,3)]) 
>>> Print(b) 

Tr 过 

>>>a=() 

>>>b=tuple () 

>>>print (b) 

0 


例子 5.1 使 用 两 种 方法 来 实例 化 这 些 类 型 :一 是 语法 层次 上 ， 二 是 使 用 类 的 通用 实例 化 
方法 。 这 两 个 方法 是 等 价 的 。 从 语法 层次 上 来 实例 化 这 些 内 置 类 型 是 为 了 使 用 更 加 方便 直 
接 ， 比 如 列表 类 型 。 如 果 不 使 用 [] 来 实例 化 ， 也 可 以 使 用 list0 来 实例 化 ， 但 是 这 样 就 没有 那 
么 直观 方便 了 。 


5.2.3 


类 的 方法 


简单 说 ， 类 的 方法 就 是 在 类 的 内 部 所 定义 的 函数 ， 只 不 过 这 个 函数 的 首 个 参数 必须 为 
self (代表 自 身 ) 。Python 用 self 关键 字 表示 自己 本 身 ， 在 方法 内 部 调用 本 身 的 属性 和 方法 都 


必须 使 
@ 


self。 对 于 类 的 方法 有 三 大 原则 : 


类 方法 的 第 一 个 参数 必须 是 self。 

类 方法 里 面 调用 类 本 身 的 属性 和 方法 ， 都 必须 在 属性 和 方法 前 加 self。 

类 方法 的 名 字 开 头 可 以 为 下 划 线 或 者 字母 ， 不 可 为 其 他 字符 。 如 果 类 方法 名 字 的 开 
头 为 两 个 下 划 线 并 且 结 尾 不 为 两 个 下 划 线 ， 就 是 私有 方法 。 所 谓 私 有 方法 ， 就 是 只 
能 为 类 的 其 他 方法 调用 的 方法 。 


例如 5.1 节 的 超市 销售 程序 ， 需 要 定义 一 个 会 员 顾客 的 类 ， 会 员 顾客 拥有 购买 水 果 打折 


的 权力 ， 


但 是 会 员 对 不 同 的 水 果 有 不 同 的 折扣 (苹果 是 九 折 ， 桃 子 是 八 折 ， 香 攀 是 七 折 ) 。 


要 定义 这 样 的 一 个 类 ， 需 要 定义 两 个 方法 : 一 个 是 购买 方法 ， 一 个 是 打折 方法 ， 并 且 打 折 方 
法 只 提供 给 购买 方法 使 用 (因为 打折 行为 在 买 东 西 时 才 会 产生 ) ， 这 样 需要 将 打折 方法 定义 
为 私有 方法 。 例 子 5.2 是 会 员 顾 客 的 类 定义 。 

例子 5.2 会 员 顾 客 的 类 定义 


01 
02 
03 
04 
05 
06 
07 


>>> class vipcust (object): 
def buy some (self,prod name,price): 
disct price=self. disct(prod name,price) 
self.prod dict[prod name]=disct price 
def _ disctl(self,prod name,price): 
if prod_name==" 苹 果 " : 


return price*0.9 
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人 elif prod_name==" 桃 子 " : 


上 return price*0.8 
hi elif prod_name==" 香 蕉 ": 
生生 了 二 二 return price*0.7 

12 ... SLses 

x return price 

14 

MS “> 


在 例子 5.2 中 ， 定 义 了 两 个 方法 : buy_some0 和 _ disct()。buy_some0 是 会 员 顾 客 的 购买 
方法 ， 把 顾客 购买 的 物品 名 字 和 价格 保存 到 属性 prod_dict 中 。 因 为 会 员 顾客 有 打折 的 权力 ， 
在 购买 时 ， 先 要 对 商品 进行 打折 ， 所 以 会 员 又 为 顾客 类 定义 了 一 个 _disct0 方 法 。 因 为 会 员 


打折 只 需要 被 会 员 类 的 购买 方法 调用 ， 所 以 可 以 定义 成 私有 方法 ， 也 就 是 在 方法 前 面 加 两 个 
下 划 线 。 定 义 完 打折 方法 以 后 ，buy_some() 方 法 先 调 用 _disct() 方 法 再 保存 会 员 客户 购买 的 物 
品 和 价格 。 


5.2.4 ”类 的 特殊 方法 

在 Python 类 的 方法 中 ， 有 一 部 分 特殊 的 方法 ， 它 们 不 同 于 普通 类 的 方法 ， 主 要 包括 两 
类 : 类 的 初始 化 函数 和 析 构 函数 、 类 的 操作 符 方法 。 

1. 类 的 初始 化 函数 和 析 构 函数 

类 的 初始 化 函数 和 析 构 函数 分 别 是 _init 和 _ del _。 初 始 化 函数 是 在 类 被 实例 化 为 对 
象 时 调用 的 函数 ， 析 构 函 数 是 在 对 象 被 del 操作 从 内 存 中 外 载 时 所 调用 的 函数 。 可 以 看 下 面 
的 例子 : 

>>> class TestRA(object) : 

ef nt (ssLE)Z 
print ("TestA 被 创建 了 ") 


ef del TselE]s 
print ("TestA 被 删除 了 ") 


>>> aa=TestA() 
TestA 被 创建 了 
>>> del aa 
TestA 被 删除 了 


>>> 
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2. 类 的 操作 符 方法 
操作 符 方法 就 是 让 类 支持 加 、 减 、 乘 、 除 等 各 种 运算 的 方法 ， 数 值 类 型 、 列 表 、 元 组 等 
nn 减 、 乘 、 除 的 操作 能 力 。 在 自 定义 的 类 
中 ， 同 样 可 以 实现 这 些 方法 来 支持 各 种 操作 符 运算 
例如 ， a 只 要 在 类 里 面 实现 了 该 方法 ， 就 可 以 支持 加 法 运 
算 : 
>>> class TestR: 
bb=3 
def adqd (self,value): 


return self.bbtvalue 


>>> a=TestA() 
>>> a+7 
10 


Python 所 支持 的 操作 符 方法 非常 多 ， 常 用 的 方法 可 参见 表 5-1。 
表 5-1 Python 常用 操作 符 方法 


运算 符 方法 


两 个 对 象 相 加 add 
两 个 对 象 相 减 sub 
mul 
两 个 对 象 相 除 div 
返回 除法 的 余数 mod 
把 一 个 数 的 比特 向 左 移 一 定数 目 lshift 
把 一 个 数 的 比特 向 右 移 一 定数 目 rlshift 
数 的 按 位 与 rand, 
按 位 或 数 的 按 位 或 ror 
按 位 异 或 数 的 按 位 异 或 xor 
按 位 翻转 x 的 按 位 翻转 invert 
小 于 x<y 返回 x 是 否 小 于 y lt 
x>y 返回 x 是 否 大 于 y gt 
X< 王 7 返回 x 是 否 小 于 等 于 了 le 
x>=y 返回 Xx 是 否 大 于 等 于 y ge 
x 一 y 比较 对 象 是 否 相 等 eq 
t x!=y 比较 两 个 对 象 是否 不 相等 ne 
二 自身 加 x+ty， 将 y 加 到 x 中 去 ， 等 同 于 x=x+y iadd 
= 自身 减 xty， 将 y 从 x 中 减 去 ， 等 同 于 x=x-y isub 
x[i:j] 切片 访问 x 的 i 到 j 的 部 分 z getslice 
x[j] 下 标 访问 通过 j 下 标 访问 x getitem 


四 4 


操作 符 方法 的 定义 方法 和 普通 方法 是 一 样 的 ， 只 要 重 载 了 运算 符 对 应 的 运算 符 方 法 ， 那 
么 类 就 可 以 使 用 运算 符 了 。 


5.2.5 ”类 的 继承 

继承 又 叫 泛 化 ， 是 使 一 个 类 获得 另 一 个 类 所 有 属性 和 方法 的 能 力 ， 被 继承 的 类 称 为 父 类 
或 基 类 ， 继 承 的 类 被 称 为 子 类 或 派生 类 。 继 承 用 来 描述 类 型 上 的 父子 关系 。 例 如 ， 苹 果 是 水 
果 的 一 种 ， 水 果 和 苹果 就 是 父子 关系 ， 苹 果 就 继承 了 水 果 的 特性 。 

在 Python 中 ， 继 承 的 语法 是 : 

class <name> (superclassl,superclass2,...): 

1 单一 继承 

Python 子 类 可 以 有 一 个 或 者 多 个 父 类 ， 子 类 会 自动 获得 父 类 的 所 有 属性 和 方法 。 如 果 一 
个 子 类 只 有 一 个 父 类 ， 就 叫 作 单一 继承 。 例 子 5.3 是 Python 单一 继承 的 用 法 。 
例子 5.3 ”Python 单一 继承 


01 >>> Class TestA (object): 


te a=0 

OR a def printf(self): 

Qa a print ("this is TestA") 
四 二 

06 >>> class TestB (TestRA) : 

(1 b=3 

O08 mas def printf (self): 

09 print ("this is TestB") 
UO def printA(self): 

i TestA.printf (self) 

也 各 


13 >>> bb=TestB () 
14 >>> bb.a 


L509 
16 23>> bb.b 
bh 


18 >>> "DDD. printeny 

19 this is TestB 

20 >>> bb.printA() 

21 this Ts Testa 

22 >>> class TestB (TestA): 


2 b=3 

24 PE def printf(lserf): 

区 你 a print ("this Ts TestB"”) 
:7 def printA(self): 
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super (TestB, self) .printf() 


29 >>> bb.printA() 


30 this i153 TestaA 


例子 5.3 中 第 1 行 定义 一 个 类 TestA， 第 6 行 定义 了 一 个 新 类 TestB (继承 了 TestA) 。 


TestB 实现 了 两 个 方法 : 一 个 是 printt)， 一 个 是 printAO 。 在 printAO 里 面 调 


printfO 方 法 ， 这 种 调用 父 类 的 方法 有 一 个 缺点 ， 就 是 当 TestA 的 父 类 改变 时 ， 假 如 


来 是 TestB 


的 子 类 ， 


要 将 所 有 使 


见 在 要 改 为 TestC 的 子 类 ， 因 为 是 | 


了 父 类 的 
TestA 本 


父 类 的 名 字 去 调用 方法 


在 2.2 版 本 后 提供 了 一 个 自动 表示 父 类 函数 的 方法 : super0。 
super0 方 法 是 提供 给 子 类 自动 寻找 父 类 的 。 在 例子 53 中 的 第 27 行 
(super(TestB,self).printf() ) 中 ，super 根据 TestB 找到 了 它 的 父 类 TestA， 然 后 调用 它 的 


printf0 方 法 ， 效 果 上 和 直接 使 用 


2. 多 重 继承 
多 重 继承 是 指 一 个 子 类 有 好 几 个 父 类 。 多 重 继承 是 一 个 颇 有 争议 的 特性 ， 在 C++ 中 颇 受 


人 诉 病 ，Java 用 接口 取代 了 多 


是 多 重 继 承 的 例子 。 
例子 5.4 ”Python 多 重 继承 


01 >>> class Al(object): 
def printf (self): 


02 
03 
04 


06 
07 
08 


10 
i 
站 多 
13 


15 >>> bb=C() 


peline( Dry 


05 >>> class Bl(object): 


def printf (self): 


ErintM"pB"y 


09 >>> class C(B BE 


def printf (self): 


print (ves 
print (A.printf (self)) 
print (B.printf (self)) 


16 >>> bb.printf() 


TestA.printf(sel) 方 法 是 一 致 的 。 


内 ， 所 以 就 


TestB 类 名 来 调用 父 类 的 方法 都 手动 改 为 TestC， 这 样 就 麻烦 了 ， 所 以 Python 


和 继承， 不 过 Python 仍然 保留 了 对 多 重 继承 的 支持 。 例 子 5.4 
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22 > 


其 实 类 就 是 将 属性 和 方法 捆绑 在 一 起 ， 可 以 用 这 个 组 合 为 模板 实例 化 一 个 个 对 象 ， 就 像 
把 轮胎 、 发 动机 、 钢 铁 组 合 起 来 ， 起 个 名 字 叫 汽车 ， 然 后 按照 这 个 汽车 的 样子 就 可 以 生产 一 
辆 辆 的 小 汽车 。 继 承 就 是 在 原来 组 合 的 基础 上 ， 加 上 想 添加 的 组 合 ， 比 如 在 普通 轿车 的 概念 
上 加 些 敞 篷 、 电 子 设备 ， 就 叫 跑车 。 多 重 继承 是 将 多 个 组 合 混合 到 一 起 ， 在 这 基础 上 再 添加 
一 些 想 添加 的 东西 。 


3. 重 载 


在 图 5.4 中 ， 类 A 有 一 个 属性 A、 一 个 方法 B， 然 后 类 B 继承 类 A; 类 B 拥有 一 个 属性 
A、 一 个 方法 B， 同 时 新 增 了 一 个 方法 C。 如 果 类 B 再 新 增 一 个 方法 B， 那 么 类 B 就 有 两 个 
方法 B， 一 个 继承 而 来 ， 一 个 自 定 义 ， 它 们 该 如 何 共存 于 类 B 中 呢 ? 答案 是 自 定义 的 方法 B 
会 覆盖 继承 而 来 的 方法 B。 在 面向 对 象 中 ， 这 种 子 类 覆盖 父 类 的 方法 称 为 重 载 。 图 5.5 中 虚 
线 框 表示 被 重 载 的 方法 。 


图 5.4 类 的 单一 继承 图 5.5 类 方法 的 重 载 
类 方法 重 载 不 只 是 存在 于 子 类 重 载 父 类 中 ， 也 存在 于 多 重 继承 的 时 候 ， 父 类 之 间 的 方法 
也 会 重 载 ， 重 载 的 顺序 是 从 右 往 左 。 在 同名 的 方法 中 ， 最 后 保留 的 是 第 1 个 父 类 的 方法 。 例 
子 5.5 是 父 类 方法 重 载 的 演示 。 
例子 5.5 父 类 方法 的 重 载 


01 >>> class Al(object): 


| a=l1 

QB eg def printf (self): 
Uk print ("A") 

05 


06 >>> class Bl(object): 
OF sss a=2 
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08 def printf (self): 


DD ea print("B") 

ba 

11 >>> Class C(object): 
hb a=3 

二 def printf (self): 
I Printd ee 

15 >>>cLlass D(A Br CTY: 
We pass 

17 


18 >>> aa=D() 

19 >>> aa.printf() 
20 A 

21 >>> 五 

Se 


第 15 行 的 DD 是 继承 A、B、C 的 类 ,但 是 A、B、C 的 属性 和 方法 是 一 样 的 ， 都 是 a 和 
printt)，D 在 继承 的 过 程 中 是 从 右 向 左 重 载 ， 后 一 个 方法 覆盖 前 一 个 方法 ， 最 后 保留 的 是 A 


的 方法 。 图 5.6 更 清晰 地 说 明了 这 一 点 。 


RCR 
EE 
类 A 的 属性 A 
类 A 的 方法 B 


图 5.6 多 重 继 承 的 方法 重 载 


在 编写 面向 对 象 程序 的 时 候 ， 通 常 都 先 画 出 类 和 类 之 间 的 关系 ， 国 际 上 通 


(Unified Modeling Language) 的 规范 来 绘画 类 和 类 的 关系 ， 


用 UML 


般 上 


方形 框 来 表示 类 ， 


Se 


角 箭 头 和 实 线 来 表示 一 个 类 继承 了 另 一 个 类 。 图 5.7 是 用 该 方法 来 绘制 例子 5.5 的 示意 图 。 
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[| 
人 


| 
| | 
图 5.7 多 重 继承 的 UML 类 图 


5.2.6 ”类 的 关联 和 依赖 

在 5.2.5 节 讨论 了 类 的 继承 〈 泛 化 ) 关系 ， 实 际 上 在 面向 对 象 程序 设计 中 ， 最 重要 的 一 个 
问题 是 去 区 分 类 以 及 类 和 类 的 关系 。 类 的 关系 除了 继承 之 外 ， 还 有 依赖 、 关 联 ， 以 及 聚合 和 
组 合 。 

1. 依 赖 

依赖 具有 某 种 偶然 性 。 比 如 说 我 要 过 河 ， 没 有 桥 怎 么 办 ， 借 一 条 小 船 渡 过 去 。 我 与 小 船 
的 关系 仅仅 是 使 用 〈 借 用 ) 的 关系 。 表 现在 代码 上 为 依赖 的 类 的 某 个 方法 以 被 依赖 的 类 作为 
其 参数 。 如 果 A 依赖 于 B， 就 意味 着 B 的 变化 可 能 要 求 A 也 发 生变 化 ， 在 UML 绘图 中 ， 


般 用 一 个 带 虚线 的 箭头 来 表示 ， 以 人 借 船 过 河 为 例子 。UML 图 就 如 图 5.8 所 示 。 


<< 数 据 类 型 >> 
船 


< 数据 类 型 >> 
A 1 
| | 

过 河 0 


图 5.8 ”依赖 关系 的 UML 图 
根据 这 个 图 ， 在 Python 中 的 代码 实现 如 下 : 


>>> class Person (object) : 
def gobyboat (self, boat): 


| 
全 用 船 过 河 O 


boat .overriver() 


>>> class Boat (object): 
def overriver(self): 


pass 


上 面 的 代码 有 两 个 类 ，Person 和 Boat 类 。Person 类 的 方法 gobyboat0 需 要 boat 作为 参数 
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传 入 ， 这 样 才能 调用 boat 的 过 河 〈overriver0 ) 方法 ， 这 就 叫 依赖 ，Person 依赖 于 Boat。 

2. 关 联 

关联 表示 一 种 结构 上 的 关系 (如 从 属 关系 ) 。 比 如 一 个 学 生 类 、 一 个 成 绩 类 ， 两 者 的 关 
联 是 一 个 学 生 有 多 门 成 绩 。 关 联 一 般 在 UML 图 上 用 没有 箭头 的 实 线 表 示 ， 有 单 向 关联 、 双 
向 关联 、 自 我 关联 等 各 种 关系 。 例 如 ， 一 个 企业 有 很 多 个 员工 ， 企 业 和 员工 就 是 关联 关系 ， 
这 是 单 向 关联 关系 。 图 5.9 展示 了 这 种 UML 的 关联 关系 。 


图 5.9 关联 关系 的 UML 图 


图 5.9 表示 了 一 个 单 向 关联 关系 ， 表 明 一 个 企业 有 N 个 员工 。 在 Python 代码 实现 上 ， 一 
般 关 联 关系 都 是 用 一 个 类 作为 另 一 个 类 的 成 员 属性 ， 例 如 : 
>>> class employee (object) : 
id=0 
name="'" 
>>> class company (object): 
dsF on (seLE)s 


self.employeer=employee() 
上 面 是 关联 关系 的 代码 举例 ，company 类 有 属性 employee， 所 有 company 可 以 通过 
employee 来 访问 employee 的 属性 和 方法 ， 关 联 关系 要 比 依赖 关系 更 加 紧密 ， 所 以 又 把 依赖 


5.2.7 类 的 聚合 和 组 合 

聚合 和 组 合 〈 复 合 ) 也 是 类 之 间 的 关系 之 一 ， 其 实 都 是 关联 的 特例 ， 都 是 整体 和 部 分 的 
关系 。 它 们 的 区 别 在 于 聚合 的 两 个 对 象 之 间 是 可 分 离 的 ， 它 们 具有 各 自 的 生命 周期 。 组 合 往 
往 表 现 为 一 种 唇齿 相依 的 关系 。 实 际 上 这 两 种 关系 在 语法 上 一 样 ， 区 别 在 于 语义 上 。 在 语法 
上 ， 都 是 将 另 一 个 类 作为 自己 的 属性 ， 这 样 就 叫 聚合 或 组 合 ， 例 如 : 


>>> class Al(object): 


pass 


>>> class Bl(object): 


pass 
>>> Class C(Oobject): 


a=A() 
b=B () 
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>>> class Dl(object): 
b=B () 


在 上 面 的 代码 中 ， 类 C 有 两 个 属性 a 和 b， 所 以 C 和 A、B 的 关系 就 是 聚合 ，C 是 将 
A、B 类 聚合 到 自己 身上 ， 而 B 类 还 作为 D 类 的 一 部 分 ， 而 A 只 能 作为 类 C 的 一 部 分 ， 那 么 
类 C 和 A 就 是 生死 与 共 的 一 个 关系 ， 没 有 C 就 不 存在 A( 因 为 A 只 给 C 当 属 性 使 用 ) ， 那 
么 A 和 C 就 是 一 个 组 合 关 系 ， 而 B 和 A 是 聚合 关系 。 

在 UML 中 ， 聚 合 关系 用 一 个 空心 凌 形 带 实 线 来 表示 ， 组 合 关系 则 是 用 一 个 实心 的 壮 形 
带 实 线 来 表示 。 图 5.10 是 类 A、B、C、D 之 间 的 聚合 、 组 合 关系 图 。 


| | 
1 
| | 
| | 
0 
| 
| | 


图 5.10 ”聚合 和 组 合 关系 


5.2.8 ”类 的 关系 

在 面向 对 象 关 系 中 ， 一 般 有 继承 〈 泛 化 ) 、 依 赖 、 关 联 、 聚 合 、 组 合 等 关系 ， 实 际 上 都 
是 用 来 描述 现实 某 个 应 用 场景 下 关系 关联 强度 的 。 

继承 关系 和 其 他 关系 有 所 区 别 ， 一 般 继承 是 静态 的 (虽然 Python 支持 对 继承 关系 做 动态 
改变 ,但 是 一 般 使 用 时 不 做 改变 ) ， 描 述 的 是 程序 设计 时 就 定 下 来 的 规则 。 例 如 ， 男 人 是 人 
的 一 种 ， 卡 车 是 汽车 的 一 种 ， 这 种 继承 的 关系 是 设计 之 初 就 定 下 来 的 静态 规则 。 
依赖 、 关 联 、 聚 合 、 复 合 这 些 关系 是 运行 时 互相 交互 产生 的 。 例 如 ， 在 运行 过 程 中 ， 将 
A 作为 参数 传 给 B 的 方法 〈 依 赖 关 系 ) ; 将 A 作为 B 的 类 属性 (关联 ) ; 类 A 只 作为 B 的 
属性 ， 不 单独 存在 也 不 作为 其 他 类 的 属性 (组 合 ) 。 按 照 UML 的 标准 ， 一 般 将 依赖 、 关 
类 、 聚 合 、 组 合 这 些 关 系统 称 为 关联 ， 将 依赖 称 为 弱 关 联 、 组 合 称 为 强 关联 。 

之 所 以 在 UML 中 分 出 这 4 种 关系 ， 实 际 上 是 为 了 描述 现实 世界 上 各 种 东西 之 间 关 系 的 
强 弱 ， 比 如 人 心 和 人 就 是 一 个 组 合 ， 人 和 人 心 同时 存在 、 同 时 消亡 ， 是 紧 紧 组 合 在 一 起 的 ， 
又 比如 汽车 轮胎 和 卡车 就 是 一 种 聚合 ， 汽 车 轮胎 是 卡车 的 一 部 分 ， 也 可 以 是 其 他 车 的 一 部 
分 ， 而 汽车 轮胎 和 卡车 也 不 是 同时 存在 、 同 时 消亡 的 。 
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对 于 Python 面向 对 象 来 说 ， 只 需要 注意 各 种 关系 所 对 应 的 语法 展示 就 可 以 了 : 

@ 依赖 : 在 Python 中 ， 类 人 A 方法 的 参数 是 另 一 个 类 B， 就 叫 A 依赖 于 卫 。 

@ 关联、 聚合 、 组 合 关系 : 在 Python 中 ， 如 果 A 的 属性 中 有 类 B 的 实例 ， 那 么 它们 
就 是 关联 关系 ; 如 果 B 的 实例 只 作为 A 的 属性 存在 ， 那 么 A 和 也 就 是 组 合 关系 。 


开始 编程 : 自动 打印 字符 图 案 


在 本 章 的 综合 应 用 部 分 ， 将 使 用 面向 对 象 的 思想 来 分 析 和 实现 一 个 小 程序 。 这 个 程序 可 
以 把 数字 打印 成 符号 * 所 组 成 的 图 案 。 例 如 ， 数 字 1234， 可 以 打印 成 如 下 形式 : 


太 太太 大 六 大 委 大 六 四 
六 四 四 六 
六 # # 六 
妇 六 六 六 六 
# 三 页 二 妇女 二 页 二 闪闪 
六 六 # 六 
六 六 # # 
六 # 六 
妇 二 二 二 坟 广 六 妇 


【本 节 代 码 参 考 : C05\numprint.py】 


5.3.1 需求 分 析 和 设计 
这 个 程序 的 要 求 很 简单 ， 就 是 将 数字 字符 串 的 每 一 个 字符 在 一 个 9X9 的 空间 里 用 * 来 模 
拟 出 数字 的 样子 和 计算 器 中 数字 的 样子 一 样 ) 。 例 如 ， 数 字 9 的 数字 图 案 如 下 : 


大 大 
大 六 
大 人 
六 
大 雪夫 二 
大 
大 
大 
大 


六 六 大 大 


首先 使 用 用 例 图 (UML 中 的 一 个 概念 ) 来 描述 本 程序 的 功能 。UML 为 面向 对 象 开发 系 
统 的 产品 进行 说 明 、 可 视 化 、 编 制 文档 的 一 种 说 明和 绘图 标准 ， 就 像 盖 一 个 建筑 需要 很 多 设 
计 图 一 样 ， 从 一 开始 建筑 设计 图 、 建 筑 力学 设计 图 到 电气 管道 设计 等 ， 软 件 开发 也 需要 很 多 
种 设计 图 。UML 为 面向 对 象 软件 开发 从 开始 到 开发 结束 ， 一 直到 程序 安装 和 部 署 ， 都 提供 了 
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一 系列 的 方法 和 标准 。 
简单 地 说 ，| 


场景 ， 一 般 用 来 图 示 化 系统 的 主事 件 流程 ， 以 描述 客户 的 需求 。 图 5.11 画 出 了 数字 


例 就 是 使 用 程序 每 个 功能 的 场景 ， 用 例 图 就 是 绘 出 程序 每 一 个 功能 的 使 


图 案 转 


换 


的 功能 〈 将 输入 的 数字 字符 串 打 印 成 图 案 ) 。 这 个 功能 实际 上 可 以 分 成 3 部 分 : 数字 字符 串 


拆 分 ， 将 每 个 数字 字符 转换 成 图 


案 ， 将 图 案 组 合 起 来 打印 。 


<<include>> 


接收 字符 囊 打印 成 图 条 


疼 案 字符 小 的 组 合 打 印 


图 5.11 数字 图 案 转 换 程序 的 用 例 图 


有 了 上 面 的 用 例 图 ， 就 可 以 以 此 为 依据 开始 进行 分 析 ， 一 般 在 分 析 的 时 候 都 是 逐个 对 月 
例 做 分 析 ， 最 重要 的 是 确认 抽象 成 几 个 类 和 这 些 类 之 间 的 关系 。 图 5.11 是 一 个 总 


例 图 的 
例 ， 由 3 个 功能 模块 组 成 : 


@ ”数字 字符 串 折 分 。 


@ ”将 每 个 数字 字符 转换 成 图 案 。 


”将 图 案 组 合 起 来 打印 。 


在 这 3 个 功能 中 ， 数 字 字 符 串 拆 分 和 将 图 案 组 合 起 来 打印 较为 简单 ， 而 且 是 面 


而 


向 使 ) 


者 


的 ， 所 以 可 以 合并 在 一 起 用 一 个 类 来 处 理 。 该 类 的 主要 作用 是 接受 输入 的 数字 字符 ， 拆 分 成 
一 个 个 字符 ， 然 后 提交 给 其 他 模块 转换 成 图 案 ， 再 将 图 案 组 合成 字符 串 打印 ， 所 以 可 以 抽象 


为 图 5.12。 


100 


图 案 打印 类 


换 的 数字 字符 串 


图 5.12 图案 打印 类 


麻烦 的 是 要 对 每 个 数字 字符 进行 图 案 转换 ， 要 用 * 表 示 9X9 的 空间 ， 模 拟 一 个 数字 的 图 
案 。 首 先 要 模拟 一 个 9X9 的 空间 ， 可 以 使 用 列表 来 模拟 。 在 列表 里 面 放 9 个 小 列表 ， 每 个 列 
表 又 放 9 个 元 素 ， 这 样 可 以 使 用 list[il[j] 来 表示 9X9 空间 的 第 i 行 第 j 个 元 素 。 将 这 个 列表 需 
要 打印 * 的 元 素 都 标志 出 来 以 后 ， 就 可 以 将 这 个 列表 以 它 里 面 的 一 个 小 列表 为 一 行 ， 以 它 的 每 
个 元 素 为 字符 打印 出 来 ， 得 到 整个 图 案 。 图 5.13 说 明了 这 了 列表 的 样子 。 


于 洲 本 本 本 再 
市 
机 
机 
王道, 源 村 、 
四 
户 二 
户 。 一 
过 衣 济 [i 本 


图 5.13 图案 转换 的 列表 样 例 
有 了 图 5.13 的 列表 以 后 ， 就 可 以 一 一 遍历 列表 的 元 素 得 到 一 个 数字 的 图 案 ， 阿 拉 伯 数字 
有 10 个 ， 每 个 数字 都 需要 一 个 这 样 的 列表 ， 每 个 列表 都 需要 按照 数字 的 样子 去 列表 中 填写 
*， 所 以 这 部 分 代码 可 以 共用 ， 抽 象 成 父 类 ， 每 个 数字 再 设置 一 个 类 从 这 个 类 继承 ， 这 样 每 个 
数字 就 都 有 了 这 个 列表 和 添加 * 的 方法 ， 类 图 如 图 5.14 所 示 。 


完成 图 案 列表 () 完成 图 案 列表 0 完成 图 案 列表 () 
图 5.14 ”图 案 转换 的 类 图 

在 图 5.14 中 ， 抽 象 一 个 数字 图 案 总 类 。 该 类 拥有 一 个 图 案 列 表 属 性 和 添加 * 到 行列 以 及 

图 


完成 图 案 列 表 的 方法 ， 这 样 各 数字 子 类 就 都 可 以 完成 各 自 图 案 列表 的 填写 工作 了 ， 而 图 案 打 
印 类 只 需要 调用 数字 图 案 总 类 完成 图 案 列表 的 方法 ， 它 们 之 间 是 依赖 关系 ， 所 以 整个 类 图 的 
设计 如 图 5.15 所 示 。 
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数字 图案 扣 关 
Fa 守 列 表 | 


IE 


于 得 下 


+ 
bg 


需 理 的 字符 0 
图 案 转换 人 ) 
1 侣 成 打印 图 军 (0) 


数字 三 


数字 四 


[Ea EE 


[数字 零 数字 一 数字 二 
完成 图 案 列表 () 


+ 寺 成 图 案 列表 0 


上 F 先 成 图 案 列 表 [] 


图 5.15 程序 整个 类 图 设计 


图 5.15 的 类 设计 中 ， 图 案 打 印 类 负责 将 数字 字符 串 分 成 一 个 个 字符 。 比 如 数字 字符 串 


1234， 就 将 它 分 成 1、2、3、4。 如 果 是 1， 就 调用 数字 一 类 去 生成 数字 一 的 对 象 ， 如 果 是 


2， 就 调用 数字 二 类 去 生成 数字 二 的 对 象 ， 然 后 调 月 


列表 。 每 个 不 同 的 数字 都 要 调用 不 同 的 类 来 生 


在 这 种 设计 中 ， 各 个 数字 对 象 的 细节 没有 被 隐藏 起 来 ， 图 案 打 印 类 还 需要 根据 字 久 


成 对 象 。 


日 这 些 对 象 的 完成 图 案 列 表 方 法 来 获得 图 案 


电 
名册 


不 同 去 调用 不 同 的 类 来 生成 对 象 ， 这 样 别人 还 是 需要 了 解数 字 图 案 的 细节 才能 使 用 。 什 么 叫 
面向 对 象 模型 才 是 好 模型 ， 简 单 地 说 就 是 要 包装 得 好 ， 要 封闭 内 部 细节 。 就 像 电视 机 一 样 ， 
不 需要 懂 无 线 波 和 显像管 ， 只 要 一 按 下 开关 就 能 看 到 电视 。 如 果 看 电视 ， 需 要 我 们 先 把 电路 
板 和 显像管 接 起 来 ， 再 用 变压器 和 显像管 去 接 ， 这 样 恐 怕 谁 也 受 不 了 。 


面向 对 象 也 是 如 此 ， 追 求 的 是 经 过 包装 后 不 需要 去 关心 细节 就 可 以 使 


目的 类 ， 发 


个 数 


字 字 符 给 它 ， 就 应 该 直接 提供 一 个 对 应 的 图 案 列 表 ， 而 不 是 还 要 关心 它 有 几 个 子 类 。 所 以 可 


以 再 加 一 个 数字 工厂 类 ， 它 负责 根据 不 同 的 数字 字符 使 有 


这 个 工厂 类 就 像 一 个 对 象 工厂 ， 图 案 打印 类 只 需要 把 需要 什么 样 的 对 象 告诉 工厂 类 ， 了 
就 会 返回 一 个 对 应 的 对 象 给 它 ， 只 要 简单 地 使 用 这 个 工厂 类 就 好 了 ， 而 不 用 在 去 关心 那些 子 
类 的 细节 。 图 5.16 就 是 加 入 工厂 类 以 后 的 整个 类 图 的 设计 。 


数字 图 案 总 类 
图 案 列表 


添加 * 行 列 () 
+ 完成 图 案 列 表 0 
人 


完成 图 案 列 表 0 完成 图 案 列 表 0 


守成 图 案 列表 0 | 


图 5.16 改进 以 后 的 类 的 设计 


对 应 的 数字 类 去 实例 化 对 象 ， 这 样 


[三 类 


图 5.16 是 改进 之 后 的 设计 。 工 厂 类 的 作 月 


明 就 是 根据 要 求 返回 


机 的 外 壳 和 开关 一 样 ， 它 隐藏 了 内 部 实现 的 细节 ， 现 在 只 需要 简单 地 调用 
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对 应 的 数字 对 象 ， 就 像 电视 


[ 厂 类 就 可 以 


了 。 


5.3.2 ”程序 开发 
图 5.16 完成 了 程序 类 的 设计 ， 下 面 就 要 根据 这 个 设计 开始 编写 代码 了 。 这 个 程序 一 共有 
13 个 类 ， 其 中 10 个 是 数字 类 ， 继 承 于 数字 图 案 总 类 ， 工 厂 类 负责 根据 数字 串 生成 数字 类 对 
象 ， 而 图 案 打 印 类 负责 接受 和 输入， 然后 组 合 输出 的 数字 类 表 进 行 打印 。 

数字 图 案 总 类 是 一 个 父 类 ， 拥 有 一 个 图 案 列表 属性 、 两 个 方法 ， 类 图 如 图 5.17 所 示 。 


数字 图 案 总 类 


+ 添加 * 行 列 () 
H+ 完成 图 案 列表 OO 


图 5.17 数字 图 案 总 类 
根据 图 5.17 的 类 图 ， 按 照 Python 定义 类 的 方法 ， 可 以 实现 如 下 代码 : 


class numpic(object) : 
def dnit ‘self)s 
self.pic list=[[" ' for i in range(9)] for x in range(9)] 


def setpos(self,i,j): 
self.pic list[i][j]="'*"' 


def draw(self): 
return self.pic list 


类 numpic 的 pic_list 用 来 存放 数字 图 案 信息 ，setpos0 用 来 把 第 i 行 第 j 个 字符 设置 为 * 字 


符 ， 不 过 虽然 每 个 数字 的 形状 不 一 样 ， 但 是 仍然 有 很 大 的 规律 ， 那 就 是 都 是 由 横行 或 者 竖 行 
组 成 的 ， 数 列 存 在 半 列 的 情况 (例如 数字 5) ， 对 于 这 些 共性 的 功能 应 该 放 到 父 类 实现 ， 所 
以 类 numpic 新 设计 的 类 图 应 该 如 图 5.18 所 示 。 


数字 图 案 总 类 
图 案 列 


图 5.18 改进 以 后 的 数字 图 案 总 类 
根据 图 5.18 的 新 设计 ， 类 numpic 的 代码 可 以 修改 为 例子 5.6。 
例子 5.6 ”数字 图 案 总 类 修改 


01 class numpic(object) : 


02 asf TnLt (selfENhs 

03 self.pic list=[[" » for 二 in range(9)] for x in range(9)] 
04 

05 def setpos(selfriri): 
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06 Self pic list[l2] l="*? 


07 

08 def draw(self): 

09 return self.pic list 

10 

1 def drawline (self,line): 

bz for step in range(9): 

和 self.setpos (line, step) 
14 

Nh def drawrow(self,row,row type): 
16 if row type==0: 

这 for step in range(9) : 

18 self.setpos (step, row) 
19 elif row type==1: 

20 for step in range(5): 

21 self.setpos (step, row) 
we else: 

23 for step in range(4,9): 
24 self.setpos (step, row) 


例子 5.6 是 根据 图 5.18 的 设计 而 得 ，drawlineO) 用 来 画 横 线 ，drawrow0 


加 上 了 上 半 列 和 下 半 列 的 区 分 ， 有 了 父 类 提供 的 完备 方法 ， 子 类 的 实现 就 很 简单 了 ， 


来 画 竖 线 ， 间 


且 


只 需要 


在 父 类 的 基础 上 重 载 draw0 方 法 ， 用 横 线 和 竖 线 画 出 数字 就 可 以 了 。 例 子 5.7 就 是 数字 子 类 


的 实现 。 
例子 5.7 数字 子 类 的 实现 


01 class onepic (numpic) : 


02 def draw(self): 

03 self.drawrow (8,0) 

04 return self.pic list 
05 

06 class zeropic (numpic) : 

07 def draw(self): 

08 self.drawline (0) 

09 self.drawrow (0,0) 

10 self.drawline (8) 

1 self.drawrow (8,0) 

六 return self.pic list 
a 

14 

15 class twopic (numpic) : 

16 def draw(self): 

yk self.drawline (0) 
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18 
19 
20 
2 
22 
23 
24 
25 
26 
27 
28 
29 
30 
3 
32 
已 吕 
34 
35 
36 
EE 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
5 
58 
59 
60 


self.drawrow (8,1) 
self.drawline (4) 
self.drawrow (0,2) 
self.drawline (8) 


return self.pic list 


class threepic (numpic): 
def draw(self): 


self.drawline (0) 
self.drawrow (8,0) 
self.drawline (4) 
self.drawline (8) 


return self.pic list 


class fourpic (numpic): 
def draw(self): 


self.drawrow (0,1) 
self.drawline (4) 
self.drawrow (8,0) 


return self.pic list 


class fivepic (numpic): 
def draw(self): 


self.drawline (0) 
self.drawrow (0,1) 
self.drawline (4) 
self.drawrow (8,2) 
self.drawline (8) 


return self.pic list 


class sixpic(numpic) : 
def draw(self): 


self.drawline (0) 
self.drawrow (0,0) 
self.drawline (4) 
self.drawrow (8,2) 
self.drawline (8) 


return self.pic 1list 


class severnpic (numpic): 


def draw(self): 


self.drawline (0) 


self.drawrow (8,0) 
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线 ) 


象 返 


61 return self.pic list 


62 

63 class eightpic(numpic) : 

64 def draw(self): 

65 self.drawline (0) 

66 self.drawrow (0,0) 

67 self.drawrow (8,0) 

68 self.drawline (4) 

69 self.drawline (8) 

70 return self.pic list 
a 

72 class ninepic (numpic): 

73 def draw(self): 

74 self.drawline (0) 

了 本 self.drawrow (0,1) 

76 self.drawrow (8,0) 

J self.drawline (4) 

78 return self.pic list 


例子 5.7 实现 了 10 个 阿拉 伯 数 字 的 数字 子 类 ， 通 过 调用 继承 而 来 的 
和 drawrow0O《〈 画 竖 线 ) 来 把 图 案 信息 写 到 图 案 列表 中 。 
顾名思义 ， 工 厂 类 就 是 生产 对 象 的 工矿， 负责 接收 传 进来 的 数字 字符 号 


drawline(0 〈 画 横 


回 。 


例子 5.8 工厂 类 的 实现 
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01 >>> class numfact (object): 


O02 "Se def factory(self,which): 
上 二 if int(which)==0: 

O04 :is return zeropic() 
OD mn elif int (which)==1: 

0 return onepic() 
1 elif int (which)==2: 
0 return twopic() 
人 elif int (which)==3: 
Pi return threepic() 
i SS elif int (which)==4: 
A return fourpic() 
3 elif int (which)==5: 
人 return fivepic() 
了 elif int(which)==6: 
16 a roeturn sixpic(h 

a i elif int (which)==7: 
18 i return severnpic() 


外 ， 生 成 对 象 的 对 


0 elif int (which)==8: 


20 i return eightpic() 
Za 0 elif int (which)==9: 
2 a return ninepic() 


例子 5.8 是 工厂 类 的 实现 。 从 中 可 以 看 到 ， 工 厂 类 实际 上 是 一 个 包装 器 ， 包 装 了 十 个 子 
类 的 使 用 ， 对 外 部 来 说 ， 这 十 个 子 类 的 使 用 都 是 一 样 的 ， 都 是 调用 factory0 方 法 。 这 就 是 面 
向 对 象 所 指 的 封装 性 ， 这 种 设计 实际 上 是 设计 模式 中 的 Simple Factory 模式 。 


所 谓 设计 模式 ， 是 指 一 套 被 反复 使 用 、 多 数 人 知晓 的 、 经 过 分 类 编目 的 、 代码 设计 经 验 : 
的 总 结 ， 简 单 地 说 就 是 “套路 ”。《 设 计 模 式 一 可 复 用 面向 对 象 软件 的 基础 》 一 书 中 
提出 了 23 种 常用 的 设计 模式 ，Simple Factor 模式 是 其 中 一 种 。 


有 了 工厂 类 ， 就 可 以 按照 自己 的 要 求 打 印 图 案 列表 了 。 现 在 图 案 打印 类 只 要 负责 组 合 打 
印 图 案 就 可 以 了 。 图 案 打印 类 的 设计 如 图 5.19 所 示 。 


图 案 打 印 类 


图 5.19 图 案 打 印 类 设计 
在 图 5.19 中 ， 图 案 打 印 类 有 3 个 操作 方法 ， 不 过 现在 通过 工厂 类 获得 数字 字符 的 图 案 是 
很 简单 的 操作 ， 所 以 提交 图 案 转 换 可 以 和 组 合成 打印 图 案 这 两 个 方法 合并 在 一 起 。 该 类 实现 
的 难点 是 如 何 将 每 个 数字 字符 得 到 的 图 案 列 表 组 合 起 来 ， 代 码 实现 如 例子 5.9 所 示 。 
例子 5.9 图案 打印 类 实现 


01 class picprint (object): 


02 de ndt (selt)s 

03 self.list total=[[] for x in range(9)] 
04 

05 def getpPrintstr (selLf, string) : 

06 self.num str=string 

07 

08 def _ unionpic(self,prc list): 

09 for step in range(9) : 

10 self.1list totallstep]1+=[" "rr "]+prc list{step] 
LE 

le def printstr(self): 

hs num fact=numfact() 

14 for eve char in self.num str: 

15 num obj=num fact.factoryl(eve char) 
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16 self. unionpic (num obj.draw()) 


入 这 print str="" 

18 for sub list in self.list total: 
了 for every char in sub list: 

20 print stri+=every char 

这 print str+="'\n' 

3 print (print str) 


在 picprint 类 中 ， 第 8~10 行 增加 了 一 个 类 方法 _unionpic〔 只 提供 给 类 内 部 调用 ， 所 以 
前 面 加 了 两 个 下 划 线 ) ， 作 用 是 将 各 个 数字 的 图 案 列表 拼接 起 来 ， 原 理 是 把 图 案 列 表 里 面 每 
一 行 的 列表 累加 到 自己 的 列表 list_total 中 。 图 5.20 说 明了 这 个 累加 的 过 程 。 


[ 
[了 
[ 
C [| 人 | EC， 
[了 [ | [ J 
LJ [ 引 [ *] 
第 一 图 案 列 表 list_total 
a | WE a 
EE 本 | 权 | 人 宏和 本 司 
医 可 [LC :J E - 
第 二 个 图 案 列 表 -一 sie 


list_total 


图 5.20 ”图案 列表 累加 的 过 程 


picprint 类 的 列表 list_total 一 开始 为 空 ， 对 数字 字符 串 的 每 个 字符 使 用 工厂 类 来 得 到 图 案 
列表 以 后 ， 图 案 列表 就 会 不 停 地 加 到 list_total 中 ， 一 直到 数字 字符 串 最 后 一 个 字符 。 

list_total 累加 了 所 有 数字 字符 的 图 案 列 表 以 后 ， 按 顺序 把 每 个 元 素 打 印 出 来 ， 整 个 程序 
功能 就 完成 了 。 


5.3.3 程序 入 口 


在 5.3.2 节 已 经 实现 了 所 有 的 类 ， 接 下 来 编写 程序 入 口 部 分 ， 程 序 就 算 完 工 了 。 程 序 入 口 
主要 要 读 取 命 令 行 参数 ， 并 传送 给 图 案 打 印 类 ， 命 令 行 参数 可 以 使 用 第 3 章 所 介绍 的 
optparse 模块 ， 下 面 是 程序 入 口 的 代码 : 


if name ==" main : 
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parser = optparse-OptionParser() 
parser.add option("-n","—— 
number",action="store",type="string",dest="num") 
(options, args) = parser.parse args() 
print str=picprint() 
print str.getprintstr (options.num) 


print str.printstr() 


记得 在 程序 开始 处 引入 optparse 模块 : import optparse。 


香 序 入 口 的 代码 很 简单 ， 只 是 从 命令 行 参 数 接收 要 打印 图 案 的 字符 串 ， 传 给 print_strO 
〈 图 案 管理 类 的 对 象 ) ， 然 后 使 用 printstr0 打 印 。 
在 Windows 的 cmd 窗口 或 Linux 的 shell 窗口 执行 如 下 命令 : 


numprint.py -n 98761 


图 5.21 是 程序 运行 效果 图 。 


TC: \WINDOYS\systen32\cmd. exe 


IC: Ynunprint .py 


图 5.21 数字 图 案 打印 程序 效果 


本 章 小 结 


本 章 学 习 了 Python 的 面向 对 象 编程 。 使 用 面向 对 象 模式 来 编写 程序 时 ， 最 重要 的 一 点 就 
是 确认 抽象 出 类 的 模型 和 类 之 间 的 关系 ， 之 后 就 可 以 使 用 Python 的 语法 来 实现 了 。 在 使 用 
Python 定义 类 的 时 候 ， 类 的 每 个 属性 和 方法 都 必须 带 有 self 关键 字 ， 这 一 点 有 别 于 其 他 语 


言 ， 需 要 特别 注意 


意 。 
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Python 3.7 编程 快速 入 门 


学 习 完 本 章 以 后 ， 需 要 考虑 下 面 几 个 问题 : 

(1) 继承 和 实例 化 的 区 别 。 

(2) 类 和 类 之 间 不 同 的 5 种 关系 ， 在 Python 中 如 何 用 语法 实现 ? 

(3) 在 5.3 节 实 现 了 一 个 将 数字 打印 成 * 拼 成 的 图 案 样式 ， 现 在 需要 增加 对 英文 字符 、 
笑脸 、 心 形 的 支持 ， 该 如 何 实现 ? 
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s8 4 音 


第 4 章 
< 异 复 捕获 和 抽出 


前 面 章节 的 应 用 案例 都 是 假设 在 一 个 完美 的 、 不 会 出 错 的 虚拟 世界 中 编程 ， 在 这 个 奇妙 
的 地 方 不 会 发 生 任何 错误 ， 每 个 程序 库 调 用 都 很 成 功 ， 用 户 从 来 不 会 输入 不 准确 的 数据 ， 例 
如 第 5 章 的 那个 打印 数字 图 案 的 程序 ， 都 是 假定 用 户 输入 的 肯定 是 准确 的 数字 字符 串 ， 那 么 
现在 该 回 到 现实 世界 了 。 

在 现实 世界 上 ， 错 误 时 常 发 生 ， 用 户 不 会 总 是 输入 正确 ， 程 序 库 不 会 总 是 正 确 直 庆 用 ， 
好 的 程序 会 预见 错误 的 发 生 ， 然 后 优雅 地 处 理 这 些 错误 。 实 际 上 ， 处 理 起 来 并 不 是 这 么 简 
单 。 比 如 ， 试 图 去 打开 一 个 不 存在 的 文件 ， 有 时 会 发 生 致 命 的 错误 ， 文 件 处 理 模 块 通 到 这 种 
问题 该 如 何 处 理 ? 传统 的 做 法 是 使 用 返回 码 。open0 方 法 在 失败 时 返回 一 个 特定 值 ， 然 后 这 

人 用 它 的 层次 往 回 传 ， 直 到 有 对 象 或 者 函数 处 理 它 。 这 种 做 法 的 问题 是 ， 管 理 这 

些 错 误 码 是 一 件 痛苦 的 事情 ， 如 果 首 先 调用 read0， 然 后 调用 open0， 最 后 调用 a Wy 
每 种 方法 都 会 返回 氏 误 标识 ， 那 么 当 这 些 方法 都 返回 错误 标识 给 调用 者 时 该 如 何 区 分 这 些 错 
误 码 呢 ? 异常 类 就 是 用 来 解决 这 个 问题 的 。 异 常 类 把 错误 消息 打包 到 一 个 对 象 ， 然 后 该 对 象 
会 自动 查找 到 调用 栈 ， 直 到 运行 系统 找到 明确 声明 如 何 处 理 这 些 类 异常 的 位 置 。 

本 章 的 主要 内 容 是 : 

@ 看 异 异 常 信 

@ 捕获 异常 

@ 多 个 异常 信息 的 处 理 。 

@ 自 定义 的 异常 信息 。 


so 


异常 处 理 


Python 语言 中 使 用 异常 类 来 管理 异常 信息 。 当 发 生 一 个 异常 的 时 候 ， 程 序 会 抛 出 一 个 异 
常 信息 ， 自 动 根据 代码 的 层次 查找 异常 处 理 信息 。 如 果 找 不 到 异常 处 理 的 地 方 ，Python 会 使 
traceback 来 显示 出 现 异常 (Exception〉 时 代码 执行 栈 的 情况 。 


6.1.1 Traceback 异常 信息 

当代 码 发 生 异 常 而 没有 指定 异常 处 理 方法 时 ，Traceback 用 来 打印 发 生 异 常 时 代码 执行 栈 
的 情况 。 下 面 先 看 一 个 完整 的 Traceback 显示 的 例子 。 
例子 6.1 Traceback 异常 信息 的 例子 


01 >>> def calcnum(li,divnum): 


2 """ 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 


03 站 人 new_ list=[divnum/one for one in 1i] 
04 oo return new list 

05 >>> def test() : 

06 。 calcnum([4,5,6,8,0,2],3) 

07 >>> def test2() : 

08 本 test () 


09 >>> 七 est2 () 


10 Traceback (most recent call last): 


11 File "<stdio>", line 1, in <module> 
让 全 File "<stdio>", line 2, in test2 
bE File "<stdio>", line 2, in test 
14 File "<stdio>", line 3, in calcnum 


15 ZeroDivisionError: integer division or modulo by zero 


例子 6.1 是 一 个 函数 calecnum()， 作 用 是 用 一 个 数字 除 以 一 个 列表 的 所 有 元 素 ， 并 将 生成 
的 元 素 放 到 一 个 列表 中 返回 ， 当 列表 中 存在 数字 0 的 时 候 ， 异 常 就 发 生 了 ， 然 后 自动 调用 
Traceback 来 显示 整个 异常 的 发 生 和 调用 的 信息 。 

从 代码 返回 结果 可 以 看 出 ，Python 默认 显示 的 Traceback 由 3 部 分 组 成 : 信息 头 、 出 错 
位 置 和 异常 信息 。 


@ 信息 头 
信息 头 就 是 第 10 行 Traceback (most recent call last) 信 息 ， 用 来 提醒 使 用 者 这 是 Traceback 


@ 出错 位置 

Traceback 显示 了 出 错 的 位 置 ， 显 示 的 顺序 和 异常 信息 对 象 传播 的 方向 是 相反 的 ， 发 生 异 
常 信息 的 位 置 是 最 下 面 的 位 置 ， 从 下 往 上 分 别 是 异常 信息 对 象 的 传播 过 程 。 在 例子 6.1 中 ， 
异常 对 象 发 生 在 calcnum0 函 数 的 第 3 行 ， 而 test0 函 数 调用 了 calcnum0 函 数 ， 所 以 当 异 常 信 
息 对 象 在 calcnum0) 中 没有 找到 异常 处 理 代码 时 ， 就 传 给 上 一 级 test0 函 数 中 调用 calcnum0) 的 
位 置 ， 在 test0 函 数 中 仍然 没有 该 异常 处 理 的 信息 ， 只 好 继续 传 给 调用 testO 函 数 的 test20 函 
数 ， 如 果 一 直 没 有 指定 异常 的 处 理 信息 ， 那 么 异常 会 一 直 传 送 到 调用 的 顶级 。 


@。 异常 信息 
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异常 信息 在 Traceback 信息 的 最 后 一 行 。 异 常 也 有 不 同 的 类 型 ， 本 例 中 的 异常 类 别 为 零 
除 错 误 (ZeroDivisionError) 。 


6.1.2 捕获 异常 
捕获 异常 可 以 使 用 try.…except 语法 ， 具 体 如 下 : 


Ce 
s 


tatements 1 


except A: 


3 


tatements 2 


(1) 首先 运行 statements 1， 如 果 statements 1 没有 异常 ， 就 如 同 没有 try...except 语句 一 
样 ， 直 接 运 行 之 后 的 代码 。 
(2) 如 果 statements 1 发 生 了 异常 ， 就 把 异常 类 型 和 except 语句 后 的 类 型 相 比 较 ， 结 果 
一 致 就 执行 statements 2。 
例子 6.1 的 异常 可 以 使 用 下 面 的 代码 来 捕获 : 


01 >>> def calcnum(li,divnum): 


02 
03 


""" 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 
EYE 

new_list=[divnum/one for one in 1i] 
except ZeroDivisionError: 


print ("列表 中 含有 0") 


08 >>> calcnum([4,5,6,8,0,2],3) 


09 ”列表 中 含有 0 


在 上 面 的 例子 中 ， 第 4 行 代码 是 发 生 异 常 的 地 方 ， 使 用 try...except 语句 ， 当 第 4 行 发 生 
异常 的 时 候 ， 进 入 第 5 行 ，except 语句 会 把 抛 出 的 异常 对 象 的 类 型 和 except 后 指明 的 类 型 相 


比较 ， 如 果 是 一 致 的 ， 就 执行 except 下 的 代码 块 。 


捕获 异常 并 不 一 定 要 在 异常 发 生 的 地 方 捕获 ， 只 需要 在 异常 对 象 传播 的 路 径 上 捕获 就 可 
以 了 ， 就 像 捕 获 猎物 在 猎物 经 过 的 地 方 布置 陷阱 一 样 。 例 如 ， 例 子 6.1 的 异常 既 可 以 在 异常 
发 生 的 地 方 捕获 ， 也 可 以 在 test0 或 test20 函 数 中 捕获 。 例 子 6.2 在 test20 函 数 里 面 捕获 


calcnum() 


例子 6.2 


bh 的 异常 。 
Python 捕获 异常 


>>> def calcnum(li,divnum): 


""" 用 divnum 除 以 1i 列表 里 的 每 一 个 数 """ 
new list=[divnum/one for one in 1i] 


return new list 


>>> def test(): 


48 


calcnum([4,5,6,8,0,2],3) 


>> def test2(): 
2 
test () 


except ZeroDivisionError: 


print ("在 test2 中 捕获 了 异常 ") 


>>> test2() 
在 test2 中 捕获 了 异常 


在 例子 6.2 中 ， 捕 获 异常 没有 放 在 发 生 异 常 的 代码 旁 ， 而 是 放 在 了 调用 test0 函 数 旁 ， 因 
为 异常 对 象 的 传播 方向 是 calcnum 一 test 一 test2 这 样 一 个 过 程 ， 也 就 是 一 个 由 内 而 外 的 过 程 ， 
在 传播 过 程 中 的 任 一 地 方 都 可 以 捕获 异常 。 


6.1.3 ”多重 异常 处 理 
上 面 的 例子 是 处 理 一 种 异常 的 方法 ， 如 果 在 程序 中 存在 多 种 异常 ， 又 该 如 何 处 理 呢 ? 可 
以 使 用 下 面 的 方法 : 


本 


. # statements 1 

except (ExceptionTypel,ExceptionType2) 
. # statements 2 

except (ExceptionType3,ExceptionType4) 
-. # statements 3 

exCept: 
-. # statements 4 


对 于 多 重 异 常 处 理 ， 既 可 以 使 用 except 带 括号 的 方法 ， 也 可 以 使 用 多 层次 的 except 分 开 
处 理 ， 如 例子 6.3 所 示 。 


例子 6.3 多 重 异 常 处 理 


01 >>> a=[] 


02 >>> a[1] 

03 Traceback (most recent call last): 

04 File "<stdio>", line 1, in <module> 

05 IndexError: list index out of range 

06 >>> b=1/0 

07 Traceback (most recent call last): 

08 File "<stdio>"; line 1 in <module> 

09 ZeroDivisionError: integer division or modulo by zero 
10 >>> c={} 


11 >>> print(c[2]) 
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了 
13 
14 
了 
16 
2 
18 
19 
20 
21 
之 人 
23 
24 
25 
26 
py 
2 
之 
30 
31 
3 
33 
34 
35 
36 


Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 
KeyError: 2 
蕊 于 ws 
a= El 
print (a[l1]) 
b=1/0 
cs 
except (IndexError,ZeroDivisionError,IndexError): 


print ("有 错误 发 生 了 ") 


有 错误 发 生 了 
中 
a=[] 
print (a[l1]) 
b=1/0 
= 
except IndexError: 
print ("访问 了 不 存在 的 列表 元 素 ") 
except ZeroDivisionError: 
print ("被 除数 为 0") 
except KeyError: 


print ("访问 了 不 存在 的 列表 key 值 ") 


访问 了 不 存在 的 列表 元 素 


在 例子 6.3 中 ， 第 1~14 的 代码 分 别 是 3 种 不 同 的 异常 情况 : 
IndexError: 列表 元 素 不 存在 异常 。 在 第 1~2 行 中 ，a 是 一 个 空 列 表 ， 不 存在 a[1] 


用 的 是 except 后 面 带 括号 ， 括 号 
except 方法 ， 一 层 一 个 异常 ， 层 层 处 理 ， 当 发 4 


所 以 抛 出 了 这 个 异常 。 
ZeroDivisionError: 被 除数 为 0 异常。 在 第 6 行 中 ， 用 0 作为 被 除数 。 


KeyError: Key 值 不 存在 异常 。 在 第 10~11 行 中 ，c 是 空 字典 ，key 为 2 的 值 不 存在 。 
对 于 上 面 3 个 异常 ， 第 15~21 行 与 第 24~34 行 采用 了 两 种 不 同 的 办 法 : 代码 15~21 行 采 


类 型 一 一 比较 ， 直 到 找到 相同 的 类 型 。 


如 果 except 后 面 什么 类 型 都 没 带 ， 就 表示 发 生 任何 异常 都 按 此 处 理 ， 例 如 : 


> 


a=[] 

print (a[1]) 
b=1/0 

c={} 


且 面 含有 多 个 异常 的 办 法 ;代码 24~34 行 则 采 
E 异 常 时 ， 程 序 会 拿 异常 类 型 和 except 后 面 的 


有 了 多 层次 的 
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= CXCepts 


print ("发 生 了 错误 ") 
发 生 了 错误 
在 except 语句 后 面 ， 还 可 以 接 else 和 finally 语句 。 
@@ 。 except 后 接 else 语句 


except 语句 后 接 else 语法 形式 如 下 : 


TEY 3 
。 # statements 1 
except ExceptionTypel: 
- # statements 2 
else: 


-etatements 3 


else 语句 的 作用 在 于 ， 如 果 statements 1 发 生 异常 ， 那 么 else 下 的 statements 3 则 不 会 运 
行 ， 只 有 statements 3 没有 异常 ， 才 会 运行 else 下 的 statements 3 。 


@ except 后 接 finally 语句 
expect 语句 后 接 finally 语法 形式 如 下 : 


LEYy 
. # statements 1 
except ExceptionTypel: 
. # statements 2 
finally: 


. #statements 3 
finally 语句 和 else 语句 的 差别 在 于 ， 不 管 异常 发 生 不 发 生 ， 都 会 运行 finally 下 的 
statements 3， 如 果 try 下 的 statements 1 发 生 了 异常 ， 而 except 语句 并 没有 指定 该 异常 类 型 ， 
那么 程序 会 先 执行 finally 里 的 语句 后 再 将 异常 对 象 向 上 层次 开始 传播 ， 例 如 : 
>>> try: 


a=1/0 


. except IndexError: 


pass 
:ELnalLLys 
rine( ok” 
ok 
Traceback (most recent call last): 
File "<stdio>", line 2, in <module> 


ZeroDivisionError: integer division or modulo by zero 


在 上 面 的 代码 中 ，except 所 指定 的 异常 类 型 并 非 a=1/0 所 发 生 的 异常 类 型 ， 而 是 在 先 运 


116 


行 finally 打印 了 ok 之 后 才 将 异常 信息 对 象 按照 栈 的 调用 顺序 往 上 传 。 
finally 和 else 语句 可 以 合 起 来 使 用 ， 如 例子 6.4 所 示 。 


例子 6.4 finally 和 else 的 综合 应 用 


>>> def divide (x，Y) : 


trys 
roa = RY 
except ZeroDivisionError: 
print ("division by zero!") 
else: 
print ("result is %f", result) 
ny 
print ("executing finally clause") 


>>> divide(2, 1) 

result is 2.0 

executing finally clause 

>>> divide(2, 0) 

division by zero! 

executing finally clause 

>>> livided™2sr “LY 

executing finally clause 

Traceback (most recent call last): 
File "xatdin>™; Tine dy 3n 2 
File "<stdin>", line 3, in divide 


TypeError: unsupported operand type(s) for /: 'str' and 'str' 

在 例子 6.4 中 ，divide 是 一 个 综合 使 用 了 finally 和 else 的 函数 。 当 调用 divide(2,1) 时 ， 没 
有 发 生 异 常 ， 所 以 else 和 finally 下 的 语句 都 执行 了 一 遍 。 当 调用 divide(2,0) 时 ， 发 生 了 
ZeroDivisionError 异常 ，else 下 的 语句 不 再 执行 ， 而 finally 下 的 语句 仍然 执行 ， 最 后 调用 
divide("2", "1")， 发 生 了 TypeError 异常 ， 但 是 这 个 异常 并 没有 在 except 中 指定 ， 程 序 仍然 会 
先 执 行 finally 后 的 语句 再 按照 运行 栈 的 顺序 抛 出 异常 。 


6.1.4 异常 的 参数 
捕获 异常 的 语句 不 只 是 可 以 对 发 生 异 常 的 类 型 进行 比较 判断 ， 还 可 以 获得 异常 的 信息 参 
数 ， 语 法 如 下 : 
Cry 2 
“4 statements 1 


except (ExceptionType) as Argument: 


4 statements 2 


该 用 法 和 前 面 小 节 的 用 法 不 同 的 地 方 是 except 后 的 语句 不 一 样 ，ExceptionType 表示 是 异 


i 


常 的 类 型 ， 而 Argument 是 ExceptionType 的 信息 参数 (一 般 用 e 代替 ) ， 例 如 : 


> 


Rs a=[] 

ee print(a[1]) 

ss» (IndexError)as e: 
2 print (e) 


list index out of rang 


6.1.5 内置 异常 类 型 


在 前 面 提 到 了 好 几 种 不 同 的 异常 信息 类 型 ， 实 际 上 Python 内 置 了 几 十 种 不 同 的 异常 类 
型 ， 这 些 异常 类 型 都 是 Python 内 部 定义 的 类 。 例 子 6.5 是 将 Python 的 每 一 个 异常 信息 的 名 字 
和 类 层次 关系 打印 出 来 ，+ 号 表示 该 类 是 上 一 层 类 的 子 类 。 


例子 6.5 ”Python 内 置 异常 类 结构 


BaseException 
+-— SystemExit 
+-— KeyboardIinterrupt 
+-— Exception 
+-- GeneratorExit 
+-- StopIteration 
+-- StandardError 
+-— ArithmeticError 
+-— FloatingPointError 
+-- OverflowError 
+-- ZeroDivisionError 
+-— AssertionError 
+-— AttributeError 
+-— EnvironmentError 
== TORrTIOr 
+ 一 OSError 
+-— WindowsError (Windows) 
+-— VMSError (VMS) 
+-— EOFError 


+-— ImportError 


+-— LookupError 
+-— IndexError 
= KavVETEoOr 
+-— MemoryError 
+-— NameError 


+-— UnboundLocalError 
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ReferenceError 
RuntimeError 
+-— NotImplementedError 
SyntaxError 
+-— IndentationError 
+-— TabError 
SystemError 
TypeError 
ValueError 
+-- UnicodeError 
+-— UnicodeDecodeError 
+-- UnicodeEncodeError 


+-- UnicodeTranslateError 


+-— Warning 


DeprecationWarning 
PendingDeprecationWarning 
RuntimeWarning 
SyntaxWarning 
UserWarning 


FutureWarning 


+-— ImportWarning 


+-— UnicodeWarning 


从 例子 6.5 可 以 看 出 ， 所 有 的 异常 都 是 从 BaseException 继承 而 来 的 ， 常 用 的 内 部 异常 都 


继承 于 Exception， 当 自 


定义 异常 类 的 时 候 ， 一 般 也 要 求 从 Exception 继承 而 来 。 


Exception 类 之 下 有 30 多 种 不 同 的 异常 信息 ， 常 见 的 异常 类 型 主要 有 : 


(1) LookupError 下 的 IndexError 和 KeyError 


这 两 个 异常 主要 用 在 访问 不 存在 的 列表 元 素 时 抛 
Key 值 时 抛 出 KeyError。 


(2) IOError 


当 程序 尝试 写 一 个 不 存在 的 文件 或 者 


nm 


(3) NameError 


当 尝 试 访问 一 个 不 存在 的 变量 名 称 时 ， 程 序 会 抛 


>>> print (bb) 


Traceback (most recent call last): 


File "<stdin>"”, Jine 1, in <module> 


NameError: name "bb' is not defined 


H IndexError 异常 、 访 问 字典 不 存在 的 


他 IO 错误 的 时 候 ，Python 会 抛 出 IOError。 


H NameError 错误 ， 例 如 : 
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(4) TypeError 
个 类 型 使 用 一 个 所 不 支持 的 操作 时 就 会 抛 出 此 类 型 。 例 如 ， 对 字符 串 做 除法 操作 ， 就 


会 抛 出 该 异常 类 型 ; 


aa.b 


>>> cc='123'/'246"' 
Traceback (most recent call last): 
File “<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for /: 'str' and 'str' 
>>> 


(5) AttributeError 
当 访 问 一 个 对 象 不 存在 的 属性 时 ， 就 会 抛 出 AttributeError 异常 : 


>>> class Test: 


a=1 


>>> aa=Test () 

>>> print (aa.a) 

于 

>>> print (aa.b) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


AttributeError: Test instance has no attribute 'b' 

在 上 面 的 例子 中 ， 对 象 aa 是 类 Test 的 实例 化 ，aa 有 属性 a、 没 有 属性 b， 所 以 在 打印 
的 时 候 就 抛 出 了 AttributeError 异常 。 

(6) ZeroDivisionError 

当 被 除数 是 0 的 时 候 ， 抛 出 ZeroDivisionError 异常 。 

上 面 只 列举 了 一 些 常用 的 异常 类 型 ， 当 遇 到 不 常用 的 异常 时 可 以 使 用 help 方法 来 获得 异 


常 信 息 的 帮助 。 


6.1 


那么 


.6 抛 出 异常 


在 Python 中 ， 可 以 使 用 raise 语句 来 抛 出 异常 。raise 的 语法 如 下 : 
raise stmt ::= "raise" [expression ["," expression ["," expression]]] 
(1) 语句 raise 后 面 可 以 接 1~3 个 表达 式 。 


Q@ 第 1 个 和 第 2 个 分 别 用 来 表示 类 型 和 值 。 如 果 第 1 个 expression 给 的 是 类 的 实例 化 ， 
它 实 际 上 已 经 包含 了 类 型 和 值 的 信息 ， 所 以 第 2 个 expression 必须 要 填写 成 None。 如 果 


第 1 个 表达 式 给 的 是 类 ， 那 么 可 以 用 第 2 个 expression 来 定义 异常 的 值 。 例 如 ， 将 第 2 个 
expression 填 成 第 1 个 expression 类 的 实例 化 对 象 ， 那 么 使 用 except 语句 捕获 的 就 是 该 对 象 ; 
如 果 第 2 个 expression 给 的 是 一 个 tuple， 那 么 这 个 tuple 会 作为 参数 传 给 第 1 个 expression 类 
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的 初始 化 函数 去 实例 化 异常 对 象 ， 而 tuple 为 空 或 者 expression 为 None 时 初始 化 参数 也 为 
空 。 

@ 一 般 第 3 个 expression 不 填写 ， 如 果 填 写 ， 就 必须 是 一 个 traceback 对 象 。 

(2) 常用 抛 出 异常 实际 上 有 3 种 常用 方法 。 

GD raise 后 接 实例 化 对 象 。 

一 个 实例 化 对 象 就 可 以 具体 说 明 实例 化 的 类 型 和 值 ， 所 以 后 面 不 需要 再 接 expression， 
例如 : 


>>> raise NameError ("aa") 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError: aa 

在 上 面 的 例子 中 ，NameError("aa") 得 到 的 是 一 个 NameError 的 实例 化 对 象 ，Traceback 捕 
获 了 这 个 异常 对 象 并 得 到 了 它 的 值 aa。 

@) raise 后 接 异 常 类 名 。 

这 样 抛 出 异常 时 ， 只 能 说 明 是 什么 异常 ， 实 例 化 对 象 的 时 候 会 使 用 空 参数 去 创建 实例 化 
对 象 ， 例 如 : 


>>> raise NameError 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError 


在 上 面 的 例子 中 ， 只 指定 了 类 型 ，Python 会 使 用 空 参数 去 实例 化 对 象 。 上 面 的 代码 实际 
上 等 同 于 下 面 的 代码 : 


>>> raise NameError() 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
NameError 
@ raise 后 接 异常 类 和 类 的 初始 化 参数 。 
这 样 抛 出 的 异常 对 象 实际 上 是 用 指定 初始 化 参数 来 实例 化 的 对 象 ， 例 如 : 


>>> raise NameError ("aa") 


Traceback (most recent call last): 
File "<pyshell#62>", line 1, in <module> 
raise NameError ("aa") 


NameError: aa 
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6.1.7 自 定义 异常 类 型 
虽然 语法 上 没有 强制 要 求 自 定 义 的 类 型 要 继承 于 Python 内 置 的 Exception， 但 是 为 了 程 
序 的 健壮 性 ， 一 般 都 会 声明 自己 定义 的 异常 从 Exception 继承 而 来 。 例 如 : 


>>> class MyError (Exception): 


def _ init (self, value): 
self.value = value 


def Str (seLi)s 


return repr(self.value) 
上 面 定义 了 MyError 类 (从 Exception 继承 而 来 )， 重 载 了 初始 化 函数 _init _， 将 初始 
化 函数 的 参数 传 给 类 属性 value。Exception 初始 化 函数 是 将 参数 传 给 args 属性 的 。MyError 
可 以 使 用 下 面 的 代码 来 抛 出 该 异常 ， 这 是 直接 用 MyError 的 实例 化 对 象 的 方法 : 


>>> trys: 


raise MyError (2*2) 
except (MyError) as e: 


print('My exception occurred, value:', e.value) 

自 定义 异常 类 的 时 候 ， 一 般 功能 只 提供 了 一 些 属性 来 保存 异常 信息 ， 以 保证 异常 类 型 的 
代码 简洁 单一 。 对 于 一 个 规模 较 大 的 程序 ， 为 了 保证 程序 的 稳健 性 和 耐劳 性 ， 要 尽 可 能 考虑 
到 程序 各 种 各 样 的 异常 ， 为 了 处 理 这 些 不 同 的 异常 ， 可 以 参考 Python 内 置 的 异常 类 型 结构 。 
例如 ， 定 义 一 个 总 异常 类 ， 然 后 具体 的 每 种 异常 继承 自 该 类 。 一 个 计算 机 程序 将 内 部 错误 分 
成 用 户 输入 错误 和 内 部 逻辑 错误 两 部 分 ， 就 可 以 定义 一 个 总 的 异常 基 类 ， 让 输入 错误 和 内 部 
逻辑 错误 作为 子 类 继承 自 该 基 类 。 例 子 6.6 是 该 结构 实现 的 例子 。 

例子 6.6 ”构造 程序 异常 类 型 处 理 结构 


>>> class BusiError (Exception): 
"" "程序 异 常 错误 信息 总 类 """ 


pass 


>>> class UserInputError (BusiError): 

。 "" "用户 输入 信息 错误 ，id 是 窗口 或 者 输入 框 的 编号 ，value 是 用 户 输入 的 信息 ，reason 

是 原因 """ 
def _ init (self,id,value,reason): 
self.id=id 
self.value=value 


self.reason=reason 


>>> class InnerdealError (BusiError): 
ey """ 内 部 逻辑 错误 ，class_type 是 发 生 模块 类 型 ，class_name 是 发 生 模块 的 名 字 ， 
line 是 模块 的 行 数 """ 
def init (self,class type,class name,line): 


self.class type=class type 
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self.class name=class name 


self.line=line 


例子 6.6 实现 了 一 个 基 类 和 两 个 子 类 。UserInputError 是 BusiError 的 子 类 ， 用 来 记录 
户 输入 信息 错误 时 的 窗口 或 者 输入 框 编 号 ， 以 及 输入 的 信息 、 错 误 产 生 的 原因 。 
InnerdealError 用 来 记录 内 部 处 理 的 异常 错误 信息 ， 包 括 异常 发 生 的 模块 类 型 、 名 字 和 发 生 的 
行 数 等 。 基 类 看 起 来 并 没有 多 少 功能 代码 ， 不 过 如 果 系 统 发 生 了 异常 ， 但 是 又 不 清楚 异常 具 
体 是 什么 类 型 ， 那 么 基 类 的 作用 就 体现 出 来 了 。 下 面 的 代码 就 体现 了 基 类 的 作 


> 


statement1 


. except (BusiError) as obj e: 


if type(obj e). name =="UserInputError": 
statement2 

elif type(obj e). name =="InnerdealError": 
statement3 


在 上 面 的 代码 中 ， 当 不 知道 statementl 产生 的 具体 异常 时 ， 可 以 使 用 BusiError 基 类 来 捕 
获 异常 对 象 ， 根 据 对 象 类 型 的 名 字 〔 使 用 type 来 获得 对 象 的 类 型 ， 使 用 类 的 _name 来 获得 
类 型 的 名 字 ) 就 可 以 知道 具体 是 什么 异常 了 ， 这 也 就 是 面向 对 象 多 态 性 的 好 处 。 


) 


〇 .2 开始 编程 : 计算 机 猜 数 


6.1 节 讨论 了 在 Python 中 如 何 处 理 异 常 ， 本 节 将 通过 开发 一 个 计算 机 的 猜 数 程序 实践 一 
下 Python 异常 处 理 的 应 用 。 
【本 节 代 码 参 考 : CO6\bbcpy】 


6.2.1 计算 机 猜 数 程序 

所 谓 计 算 机 猜 数 程序 ， 就 是 先 确定 一 个 四 位 数 〈 四 个 数字 不 能 为 重复 数字 和 0) ， 再 让 
计算 机 猜 这 个 四 位 数 是 多 少 。 每 次 计算 机 打出 一 个 四 位 数 后 ， 首 先 确定 这 四 位 数字 中 有 几 位 
猜 对 了 ， 并 且 在 对 的 数字 中 又 有 几 位 位 置 也 是 对 的 ， 将 结果 输入 到 计算 机 中 ， 给 计算 机 以 提 
示 ， 让 计算 机 再 猜 ， 直 到 计算 机 猜 出 四 位 数 是 多 少 为 止 。 整 个 猜 数 过 程 如 图 6.1 所 示 。 
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图 6.1 计算 机 猜 数 程序 示例 图 


6.2.2 需求 分 析 
解决 这 类 问题 时 ， 计 算 机 的 思考 过 程 不 可 能 像 人 一 样 具 有 完备 的 推理 能 力 ， 关 键 在 于 要 
将 推理 和 判断 的 过 程 变 成 一 种 机 械 的 过 程 ， 找 出 相应 的 规则 ， 和 否则 计算 机 难以 完成 推理 工 
作 。 
基于 对 问题 的 分 析 和 理解 ， 将 问题 简化 ， 首 先 每 一 次 提示 信息 都 包括 两 方面 的 信息 : 数 
字 组 成 信息 和 数字 位 置信 息 。 计 算 机 每 次 试探 不 过 是 根据 提示 信息 来 缩小 可 能 的 组 合 ， 所 以 
计算 机 猜 数 的 步骤 可 以 总 结 如 下 : 

(1) 按照 要 求 先 创建 一 个 符合 要 求 的 数字 列表 (possibleList) ， 实 际 上 符合 四 个 数字 不 
能 为 重复 数字 和 0 的 数字 并 不 多 ， 总 共 才 4536 个 。 

(2) 计算 机 从 符合 要 求 的 数字 列表 (possibleList ) 中 获取 一 个 随机 4 位 数 
randomNum。 输 出 randomNum， 让 用 户 把 预 设 数 与 randomNum 做 比较 ， 得 到 randomNum 有 
多 少 个 数字 与 预 设 数 相同 (hasNum ) 、 有 多 少 个 数字 不 但 相同 而 且 位 置 也 正确 

(posNum) 。 

(3) 将 可 能 数字 列表 (possibleList) 中 所 有 数字 取出 来 与 randomNum 相 比较 ， 保 留 与 
randomNum 有 相同 数字 个 数 (hasNum) 的 数字 ， 去 除 不 符合 条 件 的 数字 ， 第 一 次 缩小 了 
possibleList 的 范围 。 此 时 用 户 预 设 的 数字 必定 在 新 的 possibleList 列表 中 。 
(4) 看 用 户 输 入 的 与 预 设 数 有 相同 位 置 的 个 数 (posNum) ， 把 新 的 possibleList 列表 中 
所 有 的 数字 都 取出 来 与 randomNum 相 比 较 。 将 位 置 相同 个 数 与 posNum 相同 的 数字 保存 到 新 
的 possibleList 中 。 第 二 次 缩小 了 possibleList 的 范围 。 
(5) 重复 步骤 (2) ~ (4) ， 直 到 possibleList 的 长 度 为 1， 或 者 随机 数 randomNum 正 
好 选取 到 预 设 数 为 止 。 


到 6.2 就 是 根据 上 面 的 算法 来 绘制 的 流程 图 。 从 中 可 以 看 出 ， 该 程序 实现 的 难点 在 于 如 
何 根据 用 户 输 入 的 提示 信息 来 得 到 一 个 所 有 可 能 性 的 集合 ， 实 际 上 计算 机 要 做 的 就 是 根据 所 
给 的 提示 信息 缩小 可 能 性 的 组 合 ， 一 直 缩 小 到 只 有 一 个 的 时 候 找 到 正确 的 数字 。 
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选择 一 个 随机 数 


| 


| el lt] 根据 提示 信息 获 
得 可 能 的 序列 
过 
734 
可 能 性 的 集合 从 可 能 性 集合 中 
| 区 得 一 个 数 | 


重复 上 面 步骤 


图 6.2 ” 猜 数 程序 流程 图 


6.2.3 ”算法 分 析 

从 需求 分 析 上 可 以 看 出 ， 如 何 根据 用 户 给 出 的 提示 信息 获得 一 个 所 有 可 能 性 的 集合 是 实 
现 这 个 程序 的 难点 。 
例如 ， 计 算 机 给 出 一 个 数字 1234， 用 户 给 出 提示 2 和 1， 表示 有 2 个 数字 在 1234 中 ， 但 
是 只 有 一 个 数字 的 位 置 是 正确 的 。 在 这 种 情况 下 ， 计 算 机 如 何 去 获 得 所 有 满足 这 个 条 件 的 集 


合 呢 ? 


户 给 的 提示 信息 实际 上 包括 以 下 两 部 分 : 


(1) 有 2 个 数字 是 在 1234 中 。 这 说 明 用 户 的 数字 是 1234 中 任意 2 个 数字 的 组 合 ， 但 是 
不 包括 1234 这 四 个 数字 的 组 合 ， 有 并 且 只 有 2 个 数字 在 1234 中 。 

(2) 只 有 1 个 数字 位 置 正确 。 这 说 明 其 他 3 个 数值 位 置 都 不 正确 ， 所 以 需要 从 上 面 的 组 
合 中 再 缩小 范围 ， 只 保留 有 一 个 并 且 只 有 一 个 数字 的 位 置信 息 和 1234 是 相同 的 。 
对 于 上 面 的 两 个 部 分 ， 下 面 分 开 讨 论 如 何 实现 。 
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1. 根据 用 户 提供 的 组 成 信息 找 出 所 有 可 能 性 
计算 机 给 出 一 个 随机 的 四 位 数 randomNum (randomNum 必须 在 符合 要 求 的 4536 个 数字 


列表 possibleList 


选择 ) 。possibleList 这 个 列表 比较 容易 得 到 ， 从 1000 到 9999 中 去 除 掉 所 


有 至 少 有 2 个 数字 相同 的 数 〈 比 如 1123 有 2 个 数字 相同 ， 就 不 符合 要 求 ; 9999 有 4 个 数字 
相同 ， 同 样 不 符合 要 求 ) 。 使 用 set 很 容易 得 到 possibleList。 

假设 计算 机 从 possibleList 中 选 出 的 随机 数 (randomNum) 为 1234， 用 户 输入 的 提示 为 2 
和 1 (其 中 ，2 是 相同 的 数字 提示 hasNum，1 是 相同 的 位 置 提示 posNum) ， 说 明 1234 中 有 
2 个 数字 与 用 户 随机 数 是 相同 的 ， 至 于 是 哪 2 个 数 则 不 确定 ， 其 中 还 有 1 个 位 置 也 是 正确 


的 。 


通过 第 一 次 的 相同 数字 过 滤 缩 小 possibleList。 先 遍历 possibleList， 将 possibleList 中 所 
有 的 数字 与 选 出 的 随机 数 randomNum (这 里 假设 为 1234) 相 比 较 ; 再 将 与 之 有 2 个 相同 数 


字 的 数 取 出 来 存 
possibleList， 缩 小 


入 新 的 列表 〈subList) 中 备用 。 遍 历 完 成 后 将 新 的 列表 重新 命名 为 
嫌疑 数字 的 列表 。 代 码 如 下 : 


01 >>> def reduceByHasNum(possibleList, hasNum, randomNum): 


02 
03 
04 
05 
06 
07 
08 
09 


subList = [] 
for possibleNum in possibleList: 
randomNumList = listl(str(randomNum)) 
possibleNumList = list(str(possibleNum) ) 
if len(set (randomNumList + possibleNumList)) == 8-hasNum: 
subList.append (possibleNum) 
possibleList = subList[:] 


return possibleList 


2. 根据 用 户 提供 的 位 置信 息 找 出 所 有 可 能 性 

根据 相同 位 置 数 (posNum ) 来 找 出 所 有 嫌疑 数字 ， 将 其 存 入 列表 。 遍 历 缩 小 后 新 的 
possibleList， 将 所 有 的 数字 与 之 前 选 出 的 随机 数 randomNum 相 比 较 。 相 同位 置 数 等 于 
posNum 的 取出 来 ， 存 入 新 的 列表 〈subList) 中 备用 。 遍 历 完成 后 将 新 的 列表 重新 命名 为 


possibleList， 缩 小 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
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嫌疑 数字 的 列表 。 代 码 如 下 : 
>>> def reduceBYLocation (possibleList，PposNum，ILIandomNum) : 
subList = [] 
for possibleNum in possibleList: 
randomNumList = list(str(randomNum) ) 
possibleNumList = list(str(possibleNum) ) 
samePostion = 0 
for i in range(4) : 
if randomNumList[i] == possibleNumList[i]: 
samePostion += 1 


if samePostion == posNum: 


Ly i subList.append (possibleNum) 
了 2 二 二 possibleList = subList[:] 


3 i return possibleList 


关键 是 第 7~9 行 的 代码 ， 用 来 比较 数字 和 位 置 是 否 一 致 ， 将 数字 的 4 个 数字 一 位 一 位 地 
进行 比较 ， 如 果 有 一 致 的 就 累加 一 。 最 后 在 第 10 行将 得 到 的 数字 和 位 置 都 正确 的 数目 和 用 户 
提示 的 数目 进行 比较 ， 如 果 一 致 ， 说 明 比 较 的 这 个 数字 是 嫌疑 数字 之 一 。 


6.2.4 ”编程 实现 

前 面 分 析 了 需求 和 算法 ， 本 小 节 将 着 手 实现 。 该 应 用 主要 是 人 和 计算 机 交互 ， 实 际 就 是 
让 计算 机 根据 人 的 提示 每 次 打印 出 一 个 新 的 数 ， 然 后 人 继续 给 新 的 提示 ， 直 到 计算 机 确认 到 
数字 为 止 。 这 样 可 以 把 这 个 计算 机 抽象 成 一 个 类 TComputer， 作 用 就 是 接受 用 户 的 提示 ， 然 
后 根据 提示 打印 数 。 该 类 的 设计 图 如 图 6.3 所 示 。 


ES 

打印 猜 的 新 数 O 
图 6.3 ”Tcomputer 的 类 设计 

实际 上 计算 机 每 次 打印 新 猜 的 数 都 是 要 根据 用 户 提示 信息 进行 一 番 运 算 的 ， 要 根据 用 户 
提供 的 数字 组 成 和 位 置信 息 来 缩小 可 能 性 的 组 合 ， 所 以 该 类 的 设计 应 该 加 上 6.2.3 小 节 的 两 个 
算法 ， 并 且 要 添加 一 个 列表 属性 ， 用 来 存放 可 能 性 的 集合 。 图 6.4 是 增加 了 属性 和 方法 以 后 
的 类 设计 图 。 


图 6.4 Tcomputer 的 改进 设计 


根据 上 面 Tcomputer 的 设计 ， 可 以 使 用 Python 实现 该 功能 。 例 子 6.7 就 是 实现 了 
Tcomputer 的 代码 。 


例子 6.7 Tcomputer 的 实现 


import random 
class TComputer (object): 
derf nit (selfys 
self.possibleList = [] 
for num in range(1000, 10000): 
if len(set (list(str(num)))) == 4: 
# 先 用 1ist (str (num) ) 将 数字 转换 成 一 个 列表 ， 然 后 用 set 去 掉 重复 的 数字 。 
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self.possibleList.append (num) 
self.randomNum 


random.choice(self.possibleList) 


# 随 机 从 列表 中 选 一 个 数 作为 比较 数字 


def reduceByLocation(self): 
"根据 用 户 输入 的 位 置 正确 的 数 self .posNum， 把 不 符合 条 件 的 数字 从 posibleList 中 
排除 出 去 ，'' 
subList = [] 


for possibleNum in self.possibleList: 


randomNumList = list(str(self.randomNum)) 
possibleNumList = list(str(possibleNum)) 
samePostion = 0 


for i in range(4): 


if randomNumList[i] == possibleNumList([i]: 
samePostion += 1 


if samePostion == self.posNum: 


subList.append (possibleNum) 


self.possibleList = subList[:] 


def reduceByHasNum(self): 


'"'! 根 据 用 户 输入 猜测 正确 的 数字 的 个 数 self .hasNum， 把 不 符合 条 件 的 数字 从 
posibleList 中 排除 出 去 ' 5 


subList = [] 


for possibleNum in self.possibleList: 
randomNumList = 


= list(str(self.randomNum)) 
possibleNumList = list(str(possibleNum)) 
if len(set(randomNumList) & set (possibleNumList)) == self.hasNum: 
subList.append (possibleNum) 


self.possibleList = subList[:] 


def getUserInput (self, hasNum, posNum): 
self.hasNum = hasNum 
self.posNum = posNum 


self.reduceList () 


def reduceList (self): 
self.reduceByHasNum() 


self.reduceByLocation() 


self.randomNum = random.choice(self.possibleList) 


例子 6.7 实现 了 Tcomputer 的 代 


， 上 面 实现 的 reduceByLocation0 和 reduceByHasNumO 
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实际 上 是 6.2.3 小 节 中 算法 分 析 的 两 个 函数 ， 新 添加 的 内 容 主要 是 初始 化 方法 和 
getUserInputO、reduceList( 方 法 。 


(1) 初始 化 方法 〈 构 造 函 数 _init_0) 
初始 化 方法 主要 是 生成 一 个 所 有 的 有 可 能 的 数 的 列表 possibleList。 这 个 列表 首先 排除 了 
位 数 上 有 相同 数 的 四 位 数 ， 并 且 给 出 了 初始 的 随机 数 randomNum。 


(2) getUserImnput( 方 法 
这 个 方法 的 作用 比较 简单 ， 只 是 从 用 户 那里 接受 提示 信息 。 

(3) reduceList0 方 法 
这 是 Tcomputer 的 关键 方法 ， 作 用 是 根据 用 户 的 提示 信息 调用 reduceByhasNum0 〇 函数 和 
reduceByLocation() 函 数 ， 以 缩小 嫌疑 数字 列表 possibleList， 然 后 返回 一 个 新 的 randomNum， 
用 于 下 一 次 的 比较 。 
在 实现 了 Tcomputer 以 后 ， 下 面 只 需要 写 下 和 用 户 的 交互 就 可 以 了 : 


01 
02 
03 
04 
05 
06 
07 
08 
03 
10 
也 于 
12 


if name =="'_ main _': 
computer=TComputer () 
Print ("计算 机 :准备 猜 数 ?") 
while 1: 
value=input ("人 :") 
if value == "yes": 
print ("计算 机 : bingo") 
break 
else: 
hasNum = int(str(value) .spPlit() [0]) 
posNum = int(str(value) .split() [1]) 
computer.getUserInput (hasNum, posNum) 


上 面 是 和 用 户 进 行 交 互 的 代码 ， 第 2 行 实例 化 一 个 Tcomputer 对 象 ， 第 5~12 行 是 该 对 象 
和 用 户 之 间 交 互 的 过 程 。input0 是 Python 内 置 函 数 ， 用 来 接收 用 户 输入 的 信息 。computer 对 


象 使 用 getUserInput() 从 用 户 那 里 获得 用 户 输入 的 信息 。 
6.2.5 ”异常 处 理 

是 不 是 完成 了 6.2.4 小 节 的 步骤 ， 本 应 用 就 可 以 宣布 结束 了 ? 下 面 使 用 程序 试验 一 下 ， 截 
屏 如 图 6.5 所 示 。 
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图 6.5 试验 猜 数 程序 
出 错 了 ! 看 来 程序 开发 到 此 没有 结束 ， 从 图 6.5 可 以 看 出 ， 当 第 1 次 试验 时 ， 完 全 正确 
的 输入 是 没有 问题 的 ， 计 算 机 准确 地 猜 出 了 数字 ; 当 第 2 次 试验 时 ， 输 入 的 提示 信和 
确 ， 程 序 就 报错 退出 了 。 这 是 因为 上 面 在 分 析 设 计 和 编程 时 完全 没有 考虑 到 异常 情况 ， 用 户 
不 是 任何 时 候 都 会 按照 预想 的 那样 操作 的 ， 他 有 可 能 输入 错误 的 信息 ， 也 有 可 能 把 字母 当 数 
字 输 入 ， 还 有 可 能 输入 错误 的 提示 信息 ， 遇 到 这 种 情况 该 如 何 处 理 呢 ? 
这 就 是 本 章 讨论 的 异常 处 理 的 作用 所 在 了 。 有 了 异常 处 理 ， 程 序 就 会 稳健 耐用 ， 不 会 动 
不 动 就 出 错 退 出 了 。 
本 程序 主要 有 下 面 两 种 异 
@ 用 户 输入 格式 错误 。 在 本 应 用 中 ， 用 户 应 该 输入 yes 或 者 是 两 个 数字 ， 输 入 其 他 的 
格式 时 计算 机 应 该 抛 出 异常 来 提醒 用 户 。 
@ 用 户 输入 数据 错误 。 除了 用 户 输入 的 格式 错误 外 ， 用 户 给 的 提示 信息 本 身 可 能 是 入 
误 的 ， 也 可 能 前 后 矛盾 。 在 这 种 情况 下 ， 根 本 无 法 猜 出 正确 的 解 ， 所 以 在 处 理 异 人 
的 时 候 ， 也 需要 将 这 个 异常 考虑 在 内 。 


这 


站 


0 


6.2.6 异常 类 定义 

主要 是 处 理 两 种 不 同 的 异常 信息 ， 用 户 格式 错误 和 用 户 数据 错误 。 定 义 本 程序 的 异常 处 
理 结构 时 ， 可 以 按照 6.1.7 小 节 里 提 到 的 方法 来 编写 自 定义 类 一 一 定义 一 个 异常 的 总 类 ， 用 户 
格式 错误 和 用 户 数 据 错误 分 别 继 承 于 总 类 。 总 类 的 定义 很 简单 ， 例 如 : 


>>> class BusiError (Exception): 
""" 程 序 异常 错误 信息 总 类 "ww 
pass 
(1) 用 户 格式 错误 
在 用 户 输入 格式 不 正确 的 时 候 抛 出 异常 ， 以 便 用 户 看 到 异常 提示 的 信息 就 知道 是 输入 的 
问题 。 它 的 实现 代码 如 下 : 
>>> class UserIinputError (BusiError): 
"" 用 户 格式 错误 : errInput 记录 错误 信息 ，outInfo 记录 提示 信息 """ 
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def Init (selfr err inputy Out nfo)s 


self.errIinput= errInput 


self.outIinfo=outInfo 


户 输入 格式 异常 时 ， 返 回 的 异常 信息 要 包括 用 户 输入 的 错误 格式 信息 和 正确 的 输入 格 


式 说 明 ， 所 以 在 UserInputError 〈 用 户 输入 格式 异常 ) 中 定义 了 两 个 属性 err input 和 


out info， 分 别 上 


来 记录 错误 格式 信息 和 正确 的 输入 格式 说 明 。 


(2) 用 户 数据 错误 
计算 机 程序 按照 用 户 提示 的 数据 找 不 到 任何 一 个 可 能 的 数字 的 时 候 ， 才 会 抛 出 用 户 数据 


错误 异常 。 因 为 本 应 用 的 程序 是 每 次 都 根据 提示 数据 来 缩小 可 能 性 的 集合 〈 也 就 是 列表 
possible list 的 数字 越 来 越 少 的 过 程 ，， 现 在 的 程序 设计 并 没有 possible list 副本 ， 每 次 根据 


用 户 提 示 的 数据 对 possible_list 做 的 操作 都 不 能 恢复 ， 所 以 该 异常 类 只 是 通知 程序 输入 数据 
出 错 ， 本 局 游戏 要 从 头 开 始 了 ， 不 需要 增加 属性 ， 直 接 继承 父 类 就 可 以 了 ， 例 如 : 


>>> class UserDataError (BusiError): 
"…"" 程 序 异常 错误 信息 总 类 """ 


pass 


6.2.7 ” 抛 出 和 捕获 异常 


定义 了 异常 类 ， 下 面 的 问题 就 是 在 什么 地 方 抛 出 和 捕获 异常 了 。 用 户 输入 格式 异常 和 用 


户 数据 异常 都 是 和 用 户 输入 有 关 的 ， 所 以 可 以 在 和 用 户 进行 交互 的 地 方 增加 异常 处 理 的 机 
制 ， 抛 出 异常 并 做 相应 的 处 理 。 例 子 6.8 是 增加 了 出 错 处 理 之 后 的 用 户 交互 代码 。 


例子 6.8 用 户 交 互 代码 的 异常 处 理 


01 if _name =="' main ': 

02 computer=TComputer () 

03 print ("计算 机 :准备 猜 数 ?") 

04 while 1: 

05 print ("计算 机 : %s?" Scomputer.randomNum) 
06 value = input ("人 :") 

07 if value == "yes": 

08 print ("计算 机 : bingo") 

09 break 

10 elif len(value.split()) > 2: 

11 raise UserInputError (value， "应 该 输入 yes 或 者 是 2 个 数字 ") 
22 人 LS 人 > 

13 hasNum = int(value.split() [0]) 

14 posNum = int(value.split() [1] 

Ly computer.getUserInput (hasNum, posNum) 


例子 6.8 和 原 有 代码 的 不 同 之 处 是 在 第 8~9 行 对 用 户 输入 的 value 做 格式 检查 ， 如 果 格 式 


ke] 


不 正确 ， 就 抛 出 UserInputError 异常 。 

此 外 ， 用 户 在 输入 两 个 数 时 应 该 注意 ， 第 一 个 数 是 与 随机 数 相同 的 数字 ， 第 二 个 数 是 相 
同 的 数字 并 且 还 有 相同 的 位 置 。 也 就 是 说 ， 第 一 个 数字 必定 比 第 二 个 数字 大 ， 而 且 ， 这 两 个 
数 都 必须 小 于 4。 所 以 这 里 还 需要 增加 对 输入 数 大 小 的 判断 。 如 果 用 户 输入 的 数 有 误 ， 后 面 
必然 得 不 到 正确 的 结果 。 例 子 6.9 是 对 输入 数字 异常 的 处 理 。 


例子 6.9 输入 数字 异常 处 理 


01 if name =" main ": 

02 computer=TComputer () 

03 print ("计算 机 :准备 猜 数 ?") 

04 while 1: 

05 print ("计算 机 : %s2" %computer .randomNum) 

06 value = input ("人 :") 

07 if value == "yes": 

08 print ("计算 机 : bingo") 

09 break 

10 elif len(value.split()) > 2: 

11 raise UserInputError (value， "应 该 输入 OK 或 者 是 2 个 数字 ") 

Th elif (not value.split() [0] .isdigit()) | (not 
value.split() [1] .isdigit()): 

JS raise UserInputError (value，" 输 入 的 必须 是 2 个 数字 ") 

14 elif (int(value.split() [0]) <= int(value.split() [1])) & 
int (value.split() [0]) > 4: 

Ei raise UserInputError (value,， "输入 的 数字 必须 在 [0, 4] 之 间 ， 并 且 第 一 
个 数 要 大 于 第 二 个 数 ") 

16 else: 

18 hasNum = int(value.split() [0]) 

18 posNum = int(value.split() [1]) 

LS Computer .getUserInput (hasNum, posNum) 


例子 6.9 增加 异常 处 理 的 地 方 是 在 第 11、13 和 15 行 ， 通 过 对 输入 数值 的 判断 ， 将 不 符 
合 要 求 的 输入 都 抛 出 异常 ， 增 强 程序 的 健壮 性 ， 保 证 用 户 的 输入 是 有 效 的 。 


小 结 


本 章 讨论 了 Python 的 异常 处 理 。 对 于 每 个 程序 来 说 ， 异 常 处 理 是 必 不 可 少 的 ， 因 为 稳健 
性 是 一 个 程序 合格 的 重要 指标 之 一 。 一 个 程序 应 该 能 够 在 各 种 异常 情况 下 正常 完善 地 运行 ， 
比如 在 用 户 输入 错误 的 数据 、 链 接 的 程序 库 有 问题 或 者 外 部 的 文件 、 网 络 、 数 据 库 等 异常 情 
况 下 都 能 正确 地 运行 ， 这 样 才能 算 稳健 可 靠 。 

Python 提供 了 一 套 简洁 有 效 的 异常 抛 出 和 捕获 机 制 。 读 者 在 学 习 本 章 的 时 候 ， 要 多 留意 
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第 6 章 异常 捕获 和 抛 出 


= try、except 和 raise 的 用 法 。 在 本 章 的 综合 应 用 中 ， 列 举 了 一 个 颇 为 著名 的 计算 机 猜 数 
的 例子 ， 并 演示 了 如 何在 该 例子 上 应 用 异常 处 理 ， 以 应 付 用 户 输入 数据 错误 等 异常 情况 。 

这 里 的 计算 机 猜 数 是 让 计算 机 来 猜 人 提供 的 数字 。 读 者 也 可 以 尝试 编写 一 个 让 人 来 猜 计 
算 机 随机 获得 数字 的 程序 ， 考 虑 一 下 该 如 何 实现 ， 又 会 有 哪些 异常 需要 处 理 呢 ? 
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在 使 用 Python 开发 程序 的 时 候 ， 如 果 是 比较 复杂 的 功能 ， 通 常 需要 把 功能 分 成 几 个 部 
分 ， 这 样 程序 才能 有 良好 的 结构 。 那 么 如 何 去 组 织 一 个 有 很 多 功能 的 复杂 的 Python 代码 呢 ? 
这 就 要 使 用 Python 的 模块 和 包 了 。 

本 章 的 主要 内 容 是 : 


@ ”模块 的 导入 。 

@ ”模块 的 编辑 。 

@ 包 的 导入 。 

@ 命名 空间 的 使 用 。 


了 .1 模块 


顾名思义 ， 模 块 就 是 一 块 一 块 的 代码 。 几 何 图 形 可 以 分 成 多 块 ， 代 码 也 可 以 分 成 多 块 。 
各 种 程序 设计 语言 基本 都 包含 了 模块 的 概念 ， 本 节 就 来 学 习 Python 中 的 模块 。 


7.1.1 ”Python 模块 

在 前 面 章节 的 综合 案例 中 ， 都 是 将 程序 代码 保存 在 一 个 后 级 名 为 py 的 文件 中 ， 这 个 py 
文件 在 Python 中 就 被 认为 是 一 个 module (模块 )。 增 加 一 个 mymodule.py 文件， 内容 如 
下 : 

Te 

“""" 这 是 一 个 Python 模块 的 例子 """ 

module value=0 

def printvalue(): 


print (module value) 


如 果 想 把 这 个 模块 加 入 Python 3.7 的 系统 路 径 ， 就 要 在 CiUsers\ 用 户 名 | 
\AppData\Local\Programs\Python\Python37 下 创建 mymodulepy 文件 。 


这 个 mymodule .py 在 Python 中 称 为 mymodule 模块 。 别 的 模块 可 以 通过 import 方法 导入 
mymodule 模块 ， 来 使 用 该 模块 中 的 变量 module value 和 函数 printvalue。 打 开 终 端 进入 
mymodule.py 文件 的 当前 目录 ， 并 进入 Python 交互 式 界面 。 例 如 : 


>>> import sys,os,importlib 

>>> sys.path.append(os.getcwd()) 
>>> importlib.reload (sys) 
<module 'sys' (built-in)> 

>>> import mymodule 

>>> print (mymodule.module value) 
0 

>>> mymodule .printvalue() 

0 

>>> 


在 上 面 的 代码 中 ， 首 先 用 os.getcwd0 获 取 当 前 目录 的 路 径 ， 然 后 使 用 append0 将 这 个 路 
径 加 入 到 Python 的 系统 路 径 中 。 使 用 importlib.reload(sys) 重 新 载 入 sys 模块 ， 现 在 当前 路 径 
已 经 成 为 Python 的 系统 路 径 了 。 使 用 import 语法 导入 mymodule 模块 ， 这 样 就 可 以 使 用 
mymodule 的 变量 module_value 和 函数 printvalue() 了 。 


7.1.2 导入 模块 

导入 一 个 Python 模块 到 当前 模块 中 ， 它 的 语法 规范 如 下 : 

import stmt ::= "import" module ["as" name] ( "," module ["as" name] )* 
"from" relative module "import" identifier ["as" name] 

{ "™ identifier ["as”" namel] )》 二 

"from" relative module "import" "(" identifier ["as" name] 
0 eentitier [AS amel J [el ye 

"from" module "import" "“*" 

上 面 是 Python 语句 所 规定 的 导入 一 个 模块 到 当前 模块 的 语法 规范 : import_stmt 表示 
import 语句 ， 双 引号 标明 的 是 关键 字 ; 方 括号 表示 可 选 输入 ; 竖 线 表示 或 者 ;小 括号 和 星 号 
合 在 一 起 使 用 ， 表 示 可 以 为 若干 个 小 括号 里 的 内 容 。 从 上 面 的 语法 规范 来 看 ，import 语句 有 
4 种 不 同 的 写法 (由 3 个 竖 线 分 隔 ) ， 分 别 如 下 : 

(1) "import" module ["as" name] ("," module ["as" name] )* 

这 种 用 法 就 是 直接 在 import 后 面 加 模块 名 字 ， 并 且 这 个 名 字 还 可 以 使 用 关键 字 as 来 自 定 
义 ， 比 如 7.1.1 小 节 的 mymodule 模块 。mymodule 太 长 了 ， 可 以 使 用 下 面 的 语句 来 改变 引 
的 名 字 : 


>>> import mymodule as my 


>>> print (my.module value) 
0 


135 


模块 里 的 变量 和 函数 了 。 


>>> my.printvalue() 
0 


使 用 as 关键 字 将 mymodule 的 名 字 定 义 为 my 之 后 ， 就 可 以 直接 用 my 来 调用 mymodule 


该 语句 还 可 以 导入 多 个 模块 。 例 如 ，sys 模块 是 Python 中 一 个 有 关 操 作 系 统 信息 的 模 


块 ， 现 在 要 使 用 import 一 次 性 导入 sys 和 mymodule， 该 如 何 处 理 呢 ? 可 以 使 用 下 面 的 语句 

>>> import sys,mymodule as my 

>>> sys.maxsize 

9223372036854775807 

>>> my.module value 

0 

(2) "from" relative_module "import" identifier ["as" name] (","identifier ["as" name] )* 

这 种 用 法 不 同 于 第 1 种 用 法 ， 增 加 了 from 关键 字 。 例 如 ，mymodule 的 模块 可 以 使 用 下 

面 的 代码 来 导入 : 


>>> from mymodule import module value,printvalue 
>>> printvalue() 

0 

>>> module value 

0 

>>> 


这 种 方法 来 导入 模块 以 后 ， 不 能 使 用 模块 名 字 来 调用 模块 变量 或 者 函数 之 类 的 ， 可 以 


直接 使 用 import 语句 后 面 所 导入 的 名 字 。 例 如 ，module_value 是 mymodule 模块 的 一 个 变 


量 ， 


| 


使 用 这 种 导入 方法 之 后 ， 就 可 以 直接 使 用 module_value 变量 。 
(3) "from" relative module "import" "("identifier ["as" name] ("," identifier ["as" name] )* 


)" 
这 种 方法 和 第 2 种 方法 类 似 ， 只 是 在 import 后 加 上 括号 ， 将 需要 导入 的 部 分 用 元 组 进行 


特别 说 明 ， 作 用 和 第 2 种 方法 是 一 样 的 ， 都 是 将 模块 的 变量 、 函 数 等 导入 到 当前 模块 。 例 


如 : 


>>> from mymodule import (module value,printvalue) 
>>> printvalue() 

0 

>>> module value 

0 

3 


(4) "from" module "import" "*" 


这 种 用 法 是 将 一 个 模块 的 所 有 成 员 都 导入 到 当前 模块 下 。 比 如 有 一 个 模块 testmodule， 


有 几 十 个 不 同 的 成 员 ， 如 果 使 用 第 2 种 方法 ，import 后 面 要 写 上 几 十 个 不 同 的 名 字 ， 很 麻 


136 


烦 。 这 种 情况 就 可 以 使 用 本 方法 ， 用 星 号 来 代替 所 有 的 成 员 名 字 。 例 如 : 


>>> from module import * 


>>> print (module value) 
0 

>>> printvalue() 

0 


7.1.3 ”查找 模块 
当 import 一 个 模块 时 ，Python 要 到 哪里 去 找 模 块 文件 呢 ? 以 mymodule.py 为 例 ， 实 际 上 
了 Python 查找 模块 的 步骤 有 3 步 : 
(1) 在 当前 目录 中 查找 mymodule py。 
(2) 若 没有 找到 ， 则 继续 从 环境 变量 PYTHONPATH 中 查找 。 
(3) 若 没 有 PYTHONPATH 变量 ， 就 到 安装 目录 查找 ， 例 如 C:\Python37\Lib。 
实际 上 要 将 查找 目录 的 信息 存放 到 sys 模块 的 path 变量 。 可 以 打印 该 变量 来 查看 Python 
的 查找 目录 : 


>>> import sys 


>>> sys.path 

['', 'C:\\WINDOWS\\system32\\python37.zip', 'C:\\Python37\\DLLs', 
'C:\\Python37\\lib', 'C:\\Python37\\lib\\plat-win', 'C:\\Python37\\1ib\\lib- 
tk', 'C:\\Python37', 'C:\\Python37\\lib\\site-packages', 
'C:\\Python37\\lib\\site-packages\\gtk-2.0', 'C:\\Python37\\lib\\site- 
packages\\win32', 'C:\\Python37\\lib\\site-packages\\win32\\lib', 
'C:\\Python37\\lib\\site-packages\\Pythonwin', 'C:\\Python37\\lib\\site-— 


packages\\wx-2.8-msw-unicode'] 

从 查找 顺序 上 可 以 看 出 ， 当 前 目录 是 第 一 优先 查找 的 ， 所 以 如 果 在 当前 目录 下 建立 一 个 
了 Python 标准 库 模 块 一 样 名字 的 Python 文件 ， 那 么 Python 会 用 该 文件 取代 标准 库 的 模块 ， 可 能 会 
产生 各 种 问题 。 因 此 当 编 写 Python 模块 的 时 候 ， 尽 量 不 要 使 用 标准 库 中 已 经 存在 的 名 字 。 


7.1.4 模块 编译 

Python 在 执行 程序 的 时 候 ， 实 际 上 有 一 个 虚拟 机 机 制 。 当 运行 Python 模块 文件 的 时 候 ， 
Python 会 将 后 级 名 为 .py 的 模块 文件 编译 为 后 级 名 .pye 的 字 节 码 文件 ， 在 运行 程序 的 时 候 ， 
实际 上 是 解释 执行 编译 之 后 的 .pyc 文件 。 这 点 和 Java 很 相似 ， 不 过 编译 成 字 节 码 文件 运行 以 
后 并 不 能 提高 Python 程序 的 运行 速度 ， 只 能 提高 装载 的 速度 。 例 如 7.1.1 小 节 的 
mymodule.py 模块 ， 当 在 PyShell 里 导入 该 模块 的 时 候 ，Python 会 在 mymodule.py 的 目录 里 
生成 一 个 字 节 码 文件 mymodulepyc， 在 下 一 次 导入 的 时 候 ，Python 会 直接 装载 
mymodule.pyc 文件 来 提高 装载 速度 。 
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除了 编译 成 pyc 字 节 码 文件 外 ， 向 Python 解释 器 传递 两 个 -O 参数 〈-00) 会 生成 优化 的 
字 节 码 .pyo 文件 。pyo 文件 相 比 pyc 文件 在 装载 的 时 候 更 快 一 点 ， 这 样 可 以 提高 Python 脚本 
的 启动 速度 〈 非 运行 速度 ) 。 不 过 需要 注意 的 是 ， 压 缩 的 .pyo 文件 删除 了 py 文件 里 用 来 存放 
注释 的 _doc 属性， 所 以 若 程序 的 逻辑 功能 依赖 于 _doc 属性， 则 不 能 使 用 该 优化 方法 。 


7.2 包 
程序 代码 太 多 可 以 分 成 多 个 模块 ， 那 模块 太 多 该 怎么 办 ? 可 以 组 合成 一 个 包 。 本 节 就 来 
学 习 Python 中 包 的 应 用 。 


7.2.1 Python 包 

包 是 一 组 模块 的 集合 ， 而 模块 是 一 个 Python 文件 ， 所 以 包 就 是 放 着 若干 个 Python 文件 
的 目录 ， 并 且 该 目录 下 有 一 个 _init_.py 文件 〈 包 的 初始 化 文件 ) ， 可 以 在 该 文件 里 导入 包 
有 的 所 有 Python 模块 。 例 如 ， 在 Python 的 安装 目录 下 ， 新 建 一 个 mypackage 的 目录 ， 在 里 
面 有 mymodule.py 文件 和 sysl.py 文件 。sysl.py 的 文件 内 容 如 下 : 


hm 


def printsys(): 
print ("this is system!") 


在 mypackage 目录 下 ， 新 建 一 个 _init _.py 文件 ， 内 容 为 : 


import mypackage.mymodule 
import mypackage.sysl 


这 样 mypackage 就 被 称 为 Python 的 一 个 包 ， 就 可 以 访问 模块 和 模块 的 成 员 了 ， 例 如 : 


>>> import mypackage 

>>> mypackage.sysl.printsys 
<function printsys at 0x01C89570> 
>>> mypackage.sysl.printsys () 

this is system! 

>>> mypackage.mymodule.printvalue() 
0 


_init .py 可 以 是 空 文件 ， 不 过 在 编写 的 时 候 会 加 入 一 些 初 始 化 代码 ， 例 如 对 _all _ 属 
性 的 处 理 。 all_ 属 性 是 包 的 一 个 重要 属性 ， 一 般 用 来 存放 包 下 面 的 模块 名 称 ， 例 如 将 
mypackage 的 ”init 文件 修改 为 : 

_all =['mymodule','sys1'] 

在 该 包 的 _init _.py 文件 中 对 ”all 进行 设置 以 后 ， 就 不 需要 使 用 import 语句 来 导入 子 
模块 了 ， 这 种 方式 更 方便 一 些 ， 所 以 一 般 都 用 来 声明 包 的 模块 和 子 包 。 
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未 
要 测试 上 述 ”all 语句 ， 只 能 使 用 from mypackage import * 这 种 导入 包 的 形式 ， 若 直接 | 
使 用 import mypackage 则 会 报错 


7.2.2 包 的 导入 
包 的 导入 和 模块 的 导入 是 一 样 的 语法 规则 ， 例 如 : 


>>> import mypackage as my 


>>> my.sysl.printsys() 

this is system! 

>>> from mypackage import * 
>>> sysl.printsys() 

this is system! 

>>> 


和 模块 导入 不 同 的 地 方 是 第 4 种 带 星 号 的 导入 的 用 法 ， 当 写 下 from mypackage import * 
时 会 发 生 什么 事 呢 ?理想 情况 下 ， 总 是 希望 在 文件 系统 中 找 出 包 所 有 的 子 模块 ， 然 后 导入 ， 
但 是 实际 上 并 不 是 如 此 。 当 使 用 from mypackage import * 语 句 导 入 一 个 包 的 时 候 ， 实 际 上 
Python 会 做 以 下 两 步 : 

(1) import 语句 按 如 下 条 件 进 行 转换 : 执行 fom mypackage import * 时 ， 如 果 包 中 的 
_init _.py 代码 定义 了 一 个 名 为 _all _ 的 列表 ， 就 会 按照 列表 中 给 出 的 模块 名 进行 导入 。 例 
如 ，__init _.py 的 内 容 如 下 : 

_all =["‘sys1’] 

那么 使 用 from mypackage import * 导 入 模块 的 时 候 ， 实 际 导入 的 只 有 sys1， 而 没有 


mymodule: 


>>> from mypackage import * 
>>> dir() 


[” annotations: ™ » Builtins YW " ‘doc yy " loader Yi " ‘mame ‘Vy 


"” package “rr * ‘Spee yy "sysi"] 


dir0 函 数 是 Python 内 置 函 数 ， 用 一 个 列表 形式 来 打印 对 象 的 成 员 名 字 。 从 上 面 的 结果 可 
以 看 出 ，mypackage 的 sysl 模块 已 经 导入 到 当前 模块 中 ， 而 mymodule 则 没有 。 


(2) 如 果 没 有 定义 _all ， 那 么 fom mypackage import * 语句 就 不 会 从 mypackage 包 


中 导入 所 有 的 子 模块 。mypackage 只 导入 _ init 所 用 于 的 命名 空间 ， 如 果 _ init 为 一 个 空 文 
件 ， 那 么 fom mypackage import * 实 际 上 不 能 导入 任何 一 个 子 模块 到 当前 模块 中 。 


从 上 面 的 分 析 可 以 看 出 ， all 列表 可 以 看 成 是 包 的 索引 ， 指 定 了 包 所 拥有 的 模块 的 名 
字 。 在 编写 Python 包 的 时 候 ， 一 般 都 建议 在 _init _.py 文件 里 面 明确 地 设置 _all 列表 。 
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7.2.3 ”内 崩 包 
对 于 功能 较为 复杂 的 程序 ， 一 个 


大 的 包 里 面 套 着 若干 个 子 包 ， 每 个 子 包 又 有 若干 个 模 


块 。 以 Python 处 理 XML 的 标准 库 XML 模块 为 例 〈 该 模块 文件 就 在 Python 安装 目录 里 ) ， 
它 就 包括 了 4 个 不 同 的 子 包 ， 每 个 子 包 都 有 不 同 的 作用 。 例 子 7.1 用 来 演示 如 何 将 XML 模块 


的 代码 文档 结构 打印 出 来 。 
例子 7.1 XML 模块 的 代码 结构 


xml/ Top-level package 
人 Initialize the xml Package 
parsers/ Subpackage for file parsers 
4nit “pV 
expat .py 
dom/ Subpackage for dom 
eb 
domreg.py 


expatbuilder.py 
minicompat .py 
minidom.py 
NodeFilter.py 
NodeFilter.py 
xmlbuilder.py 


sax/ Subpackage for sax 


、 dnit -BY 
_exceptions.py 
expatreader.py 
handler.py 
xmlreader.py 


saxutils.py 


etree/ Subpackage for etree 


— nit ~Ppy 
cElementTree.py 
ElementIinclude.py 
ElementPath.py 
ElementTree.py 


从 例子 7.1 的 代码 结构 图 就 可 以 看 到 ，XML 标准 库 模 块 有 4 个 功能 不 同 的 子 包 ， 其 中 
parsers 和 etree 包 只 提供 XML 包 内 部 调用 的 功能 ， 所 以 它们 的 _init .py 文件 没有 什么 初始 
化 的 内 容 ， 只 是 写 了 几 行 注释 来 说 明 该 包 的 作用 ， 而 dom 和 sax 包 不 同 ， 它 们 是 需要 提供 给 
外 部 调用 的 功能 模块 (dom 包 以 DOM 方式 来 操作 XML ，sax 包 以 SAX 方式 来 操作 


XML) ， 所 以 它们 的 _init .py 文件 号 


包装 。 
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有 都 增加 了 不 少 初始 化 代码 ， 并 且 增 加 了 对 模块 功能 锯 


明定 SA 是 两 条 蚤 2MD 文档 处 理 的 涉 同方 冻 ; 卫 QM 的 认 式 大 将 ML 文件 以 机 于 
的 数据 结构 全 部 读 到 内 存 中 ; SAX 则 是 事件 驱动 地 解析 XML 文件 ， 一 点 一 点 解析 XML 


文件 ， 遇 到 某 个 新 的 起 点 或 终点 时 调 一 个 回调 函数 来 处 理 XML 文件 。 


.对 于 内 柑 包 的 使 用 ,需要 注意 的 只 有 二 点,… 那 就 是 在 装载 邻居 包 的 模块 时 要 使 用 邻居 人 包 
和 模块 的 全 名 ， 没 有 简洁 的 方法 。 例 如 ， 在 例子 7.1 中 ，dom 中 的 domreg py 模块 要 使 
etree 包 的 ElementTree.py 模块 时 ， 可 以 使 用 如 下 方法 导入 : 


import etree. ElementTree 
或 者 : 


from etree import ElementTree 


了 .本 本章 小 结 


本 章 讨 论 了 Python 中 模块 和 包 的 概念 ， 对 一 个 较 大 规模 的 Python 程序 ， 需 要 将 功能 分 
成 几 部 分 来 实现 ， 这 时 就 需要 用 到 模块 和 包 : 模块 是 一 个 Python 的 代码 文件 ， 包 负责 对 模块 
文件 的 封装 。 其 中 ， 最 需要 注意 的 是 _init 文件 的 作用 。 
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前 面 章节 介绍 了 面向 对 象 的 概念 ， 在 面向 对 象 编程 语言 中 ， 可 以 定义 类 ， 将 相关 的 数据 
和 行为 捆绑 在 一 起 。 这 些 类 可 以 继承 父 类 部 分 或 全 部 的 性 质 ， 同 时 也 可 以 定义 自己 的 属性 
(数据 ) 或 方法 〈 行 为 ) 。 在 定义 类 的 过 程 结束 时 ， 类 通常 充当 用 来 创建 实例 (有 时 也 简单 
地 称 为 对 象 ) 的 模板 。 同 一 个 类 的 不 同 实例 通常 有 不 同 的 数据 ， 但 “外 表 ” 都 是 一 样 的 。 既 
然 对 象 是 以 类 为 模板 来 生成 的 ， 那 么 类 是 以 什么 模板 来 生成 的 呢 ? 

本 章 的 主要 内 容 是 : 

@ 元 类 的 概念 。 

@ ”AOP 的 概念 。 

@ 新 型 类 的 使 用 。 


8.1 元 类 


元 类 是 Python 语言 中 的 高 级 主题 ， 事 实 上 绝 大 部 分 情况 下 都 不 是 必须 使 用 它 才能 完成 开 
发 ， 但 是 元 类 动态 地 生成 类 的 能 力 能 够 更 方便 地 解决 下 面 情 景 的 难题 。 


@ ”类 在 设计 时 并 不 是 所 有 部 分 都 确切 地 知道 所 有 的 细节 ， 有 些 细节 要 通过 在 程序 运行 
时 得 到 的 信息 才能 决定 。 

@ 在 某 些 情景 下 ， 类 比 实例 更 重要 。 例如， 编写 一 个 声明 性 语言 (declarative mini- 
languages ) 的 时 候 ， 在 类 声明 中 直接 表示 了 它 的 程序 逻辑 ， 使 用 元 类 来 影响 类 创建 
的 过 程 就 相当 有 用 。 


8.1.1 类 工厂 
在 Python 老 版 本 里 可 以 使 用 类 工厂 函数 来 创建 类 ， 返 回 在 函数 体内 动态 创建 的 类 ， 例 
如 : 


>>> def class with method(func) : 
汪 class klass: pass 


setattr(klass, func. name , func) 
return klass 

35> ef say foo(self): print("foo’) 

>>> Foo = class with method(say foo) 

>>> foo = Foo() 

>>> foo.say foo() 


Foo 


函数 class_with_method 是 一 个 类 工厂 函数 ， 通 过 setattr0 方 法 来 设置 类 的 成 员 函 数 ， 并 
且 返 回 该 类 。 这 个 类 的 成 员 方 法 可 以 通过 class_with_method 的 func 参数 来 指定 。 


8.1.2 ” 初 识 元 类 

类 工厂 的 方法 都 是 通过 一 个 函数 来 生成 不 同 的 类 。 类 工厂 可 以 是 类 ， 就 像 它 们 可 以 跟 函 
数 一 样 容易 。 在 Python 2.2 之 后 ， 提 供 了 一 个 称 为 type 的 特殊 类 就 是 这 样 的 类 工厂 ， 即 所 谓 
的 元 类 。 元 类 是 类 的 类 ， 类 是 元 类 的 实例 ， 对 象 是 类 的 实例 。 

元 类 type 的 使 用 方法 如 下 : 

>>> Foo=type('Foo', (),{'say_ foo':say fool) 


>>> fool=Foo() 
>>> fool.say_foo() 


上 面 的 Foo 不 是 函数 的 返回 结果 ， 而 是 type 元 类 实例 化 之 后 的 类 ， 虽 然 看 起 来 很 像 ， 却 
是 完全 不 同 的 生成 方式 。 

元 类 type 首先 是 一 个 类 ， 所 以 比 类 工厂 的 方法 更 灵活 多 变 ， 可 以 自由 创建 子 类 来 扩展 元 
类 的 能 力 ， 例 如 : 


>>> class ChattyType (上 type) : 


. def _new_ (cls，name，bases，dct) : 
print ("Allocating memory for class", name) 
return type._ new (cls, name, bases, dct) 

“def init (cls, name, bases, dct): 
print ("Init'ing (configuring) class", name) 
super (ChattyType, cls). init (name, bases, dct) 
>>> aa=ChattyType ('Foo', (),{}) 
Allocating memory for class Foo 


Init'ing (configuring) class Foo 
其 中 ，_new_ 分 配 创建 类 和 init 方法 配置 类 是 类 type 内 置 的 基本 方法 。 需 要 注意 的 
是 ， 这 两 个 方法 的 第 一 个 参数 均 为 cls〈 特 指 类 本 身 ) ， 而 非 self (类 的 实例 )。 

当 用 元 类 实例 化 一 个 类 的 时 候 ， 类 将 会 获得 元 类 所 拥有 的 方法 ， 就 像 类 实例 化 对 象 的 时 
候 对 象 会 获得 类 所 拥有 的 方法 一 样 。 例 子 8.1 是 元 类 实例 化 的 例子 。 
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例子 8.1 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
二 人 
33 
14 
15 
16 
hi 
18 
下 及 
20 


元 类 的 实例 化 
>>> class ChattyType (type): 


def _new (cls, name, bases, dct): 


print("Allocating memory for class", name) 


return type. new (cls, name, bases, 


def init (cls, name, bases, dct): 


print("Init'ing (configuring) class", name) 


super (ChattyType, cls). init (name, bases, 


def add(cls) : 


print ("metaclass method") 


>>> x=ChattyType ('foo', (),{}) 
Allocating memory for class foo 
Init'ing (configuring) class foo 
>>> x.add() 

metaclass method 

>>> XX=X() 

>>> xx.add() 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 


AttributeError: '‘'foo' object has no attribute 'add' 


dct) 


第 1~10 行 定义 了 一 个 类 ChattyType， 继 承 于 type; 在 第 11 行 中 ， 元 类 ChattyType 实例 
化 之 后 得 到 了 一 个 类 foo， 拥 有 元 类 的 方法 add0， 而 继续 将 类 foo 实例 化 之 后 的 对 象 xx 并 没 
有 add0 方 法 ， 这 就 是 实例 化 和 继承 的 一 大 区 别 。 多 层次 继承 的 时 候 ， 子 类 可 以 获得 父 类 或 


“ 父 类 的 父 类 ”的 所 有 方法 和 属性 ， 而 实例 化 不 同 ， 实 例 化 只 能 获得 实例 化 它 的 类 


开 定 义 的 


方法 。 图 8.1 用 来 说 明 这 一 点 : A 实例 化 得 到 B，B 实例 化 得 到 C， 其 中 C 所 拥有 的 方法 只 


有 B 所 定义 的 


法 。 
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实例 化 


图 8.1 继承 和 实例 化 的 区 别 


属性 和 方法 ， 而 C 继承 B，B 继承 A， 实际 C 拥有 A 和 B 所 有 的 


属性 和 方 


8.1.3 设置 类 的 元 类 属性 


在 Python 中 ， 每 一 个 类 都 是 经 过 元 类 实例 化 而 来 ， 只 不 过 这 个 实例 化 的 过 程 在 很 多 情况 
下 都 是 由 Python 解释 器 动 完 成 的 。 ee tt 来 说 明 该 类 的 
元 类 ,一般 情况 下 该 属性 都 由 Python 解释 器 自动 设置 ， 不 过 用 户 也 可 以 更 改 类 的 
__ metaclass ”属性 来 更 改 类 的 元 类 。 

设置 类 的 元 类 属性 ， 可 以 在 类 的 内 部 直接 设置 ”metaclass 属性， 或 者 直接 设置 全 局 变 
量 _metaclass” 。 如 果 设 置 全 局 变量 _metaclass 属性， 那么 该 命名 空间 下 定义 所 有 的 类 的 
元 类 都 将 是 全 局 变量 _metaclass ”所 指定 的 元 类 。 例 子 8.2 是 类 的 元 类 属性 设置 的 例子 。 
例子 8.2 类 的 元 类 属性 的 设置 


01 >>> class ChattyType (type): 


NT def new_ (cls, name, bases, dct): 

Qa sa print ("Allocating memory for class", name) 
0 return type. new (cls, name, bases, dct) 
QB ea def init _(cls, name, bases, dct): 

De esi print("Init'ing (configuring) class", name) 
QO a super (ChattyType, cls). init (name, bases, dct) 
08 

09 >>> class example (metaclass=ChattyType): 

1 2 defl nit (aelf)e 

“Er 0 printirthisr Ls DC 

和 


13 Allocating memory for class example 


14 Init'ing (configuring) class example 

第 1~8 行 定义 了 一 个 元 类 ChattyType， 第 9~11 行 定义 了 一 个 类 example。 因 为 Si 3 
取消 了 属性 _metaclass”， 所 以 元 类 必须 在 定义 类 时 采用 metaclass= 元 类 名 的 方式 声明 。 实 
际 上 第 9~11 行 定义 类 的 代码 也 就 是 元 类 ChattyType 实例 化 类 example 的 代码 ， Ph 


S35 8E "nit” self):prine "this Ts: iniel™" 


>>> example=ChattyType('example', (), {'_ init ': init }) 
Allocating memory for class example 


Init'ing (configuring) class example 


8.1.4 元 类 的 魔力 
从 上 面 几 个 小 节 可 以 了 解 到 元 类 最 重要 的 两 个 方面 : 
@@ 类 是 由 元 类 实例 而 来 的 ， 类 的 定义 过 程 实际 上 是 元 类 实例 化 的 过 程 。 
@ ”类 的 元 类 可 动态 改变 ， 可 以 直接 设置 全 局 变量 metaclass 来 改变 。 
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改 


变 全 


局 变量 _metaclass”， 就 改变 类 的 元 类 ， 而 类 又 是 元 类 实例 的 结果 ， 所 以 元 类 可 


以 改变 类 的 定义 过 程 。 换 句 话说 ， 只 要 改变 全 局 变量 _metaclass”， 就 能 神 不 知 鬼 不 觉 地 改 
变 一 个 类 的 定义 ， 这 就 是 元 类 的 魔力 。 例 子 8.3 是 一 个 元 类 魔力 的 简单 例子 。 


例子 8. 


3 元 类 魔力 的 简单 例子 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
由 
he 
LS 
14 
15 
16 
hy 
18 
LS 
20 
2 
22 
pe 
24 
25 


>>> class example: 
def nit “(5elf£): 
print ("this i example!") 
def test msg (self): 
print ("this is test msg!") 
>>> aa=example() 
this i example! 
>>> aa.test msg() 
this is test msg! 
>>> class change (type): 
def new_ (cls,name,bases,dict): 
def test msg(self): 
print("the test msg is changed!") 
dict['test msg']=test msg 
return type._ new_ (cls,name,bases,dict) 
>>> class example (metaclass=change): 
GeE “init (self)s 
print ("this i example!") 
def test msg(self): 


print ("this is test msg!") 


>>> aa=example () 
this i example! 
>>> aa.test_msg() 


the test msg is changed! 


第 1~5 行 定义 了 一 个 类 example， 它 有 两 个 方法 _init _ 和 test_ msg0。 第 10~16 行 定义 了 一 
个 元 类 change， 将 dict 参数 中 的 test msgO 蔡 换 成 了 内 定义 的 方法 test msg0 (第 12~14 行 ) 。 也 
就 是 说 ， 如 果 一 个 类 以 该 类 为 元 类 ， 那 么 它 的 test_msg0 方 法 会 被 元 类 自 定义 的 test_ msgO 所 蔡 
换 ， 所 以 在 第 17~20 行 以 同样 的 代码 定义 类 example， 它 们 的 test_msg0 方 法 结果 则 完全 不 一 样 


(第 8 行 和 第 24 行 相 比 较 ) 这 种 “ 偷 天 换 日 ”的 手段 正 是 元 类 魔力 的 小 小 


8.15 


面向 方面 和 元 类 


展示 。 


i 的 编 


元 类 的 这 种 魔力 能 带 来 什么 实用 价值 吗 ? 实际 用 途 确 实 是 有 的 ， 很 接近 于 面向 方 
面向 方面 编程 (Aspect Oriented Programming，AOP) 的 核心 内 容 就 是 所 谓 的 “ 横 


程 。 殖 


点 ”。 
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办 关注 


使 用 面向 对 象 方法 构建 软件 系统 ， 我 们 可 以 利用 OO 的 特性 很 好 地 解决 纵向 的 问题 ， 因 
为 OO 的 核心 概念 ， 如 继承 等 ， 都 是 纵向 结构 的 。 但 是 ， 在 软件 系统 中 往往 有 很 多 模块 或 者 
很 多 类 共享 某 个 行为 ， 或 者 说 某 个 行为 存在 于 软件 的 各 个 部 分 中 ， 这 个 行为 可 以 看 作 是 “ 横 
向 ”存在 于 软件 之 中 ， 它 所 关注 的 是 软件 各 个 部 分 共有 的 一 些 行为 ， 而 且 在 很 多 情况 下 这 种 
行为 不 属于 业务 逻辑 的 一 部 分 。 例 如 ， 操 作 日 志 的 记录 并 不 是 业务 逻辑 调用 的 必需 部 分 ， 但 
是 我 们 却 往往 不 能 在 代码 中 显 式 调 用 ， 并 承担 由 此 带 来 的 后 果 《〈 例 如 ， 当 日 志 记录 的 接口 发 
生变 化 时 ， 不 得 不 对 调用 代码 进行 修改 ) 。 这 种 问题 ， 使 用 传统 的 OO 方法 是 很 难 解决 的 。 
AOP 的 目标 便 是 将 这 些 “ 横 切 关注 点 ”与 业务 逻辑 代码 相 分 离 ， 从 而 得 到 更 好 的 软件 结构 以 
及 性 能 、 稳 定性 等 方面 的 好 处 ， 如 图 8.2 所 示 。 


纵向 关注 点 


安全 检测 


Sr 
横 切 关注 点 


事务 处 理 


Ww 
图 8.2 面向 方面 

一 个 软件 系统 的 业务 逻辑 上 有 很 大 一 部 分 代码 都 是 AOP 里 所 说 的 横 切 关注 点 ， 例 如 日 

志 处 理 、 安 全 检测 、 事 务 处 理 、 权 限 检查 等 。 这 部 分 代码 占 了 很 大 的 比例 ， 几 乎 在 每 个 地 方 

都 要 调用 。AOP 的 思想 就 是 把 这 些 横 切 关注 点 代码 抽取 出 来 ， 不 再 在 各 个 软件 模块 中 显 式 使 


例如 ， 日 志 处 理 是 每 个 软件 都 有 的 功能 ， 一 般 习 惯 在 做 一 些 操作 前 写 上 开始 模块 处 理 的 
日 志 、 处 理 结束 写 上 处 理 结束 、 处 理 出 错 写 上 处 理 告 警 等 。 如 果 一 个 软件 有 几 百 个 处 理 步 
又 ， 每 个 步骤 都 需要 有 正常 日 志 、 异 常 日 志 ， 那 么 这 个 软件 仅仅 是 写 日 志 的 代码 就 要 数 干 行 
甚至 上 万 行 了 ， 维 护 起 来 相当 困难 。 

如 果 部 分 代码 不 需要 手工 写 到 各 个 业务 逻辑 处 理 的 地 方 ， 而 是 把 这 部 分 代码 独立 起 来 ， 
各 个 业务 罗 辑 处 理 的 地 方 会 在 运行 的 时 候 自 动 调用 这 些 横 切 点 功能 ， 这 样 代 码 量 就 少 很 多 
也 方便 很 多 ， 这 就 是 AOP 的 核心 地 方 。 
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要 实现 AOP 所 说 的 自动 调用 ， 有 的 语言 使 用 Aspect 编译 器 ，Python 则 使 用 元 类 。 


8.1.6 元 类 的 小 结 

Python 的 元 类 具有 动态 改变 类 的 能 力 ， 给 编程 带 来 了 更 方便 的 动态 性 和 能 力 。 需 要 注意 
的 是 ， 在 实际 使 用 过 程 中 ， 需 要 防止 过 度 使 用 元 类 来 动态 改变 类 ， 过 于 复杂 的 元 类 通常 会 带 
来 代码 难以 调试 和 可 读 性 差 的 问题 ， 而 Python 语言 是 所 有 语言 中 最 强调 良好 可 读 性 和 实用 性 
的 语言 ， 所 以 一 定 要 在 确实 需要 使 用 的 时 候 才 使 用 元 类 。 


号 .2 新 型 类 


在 Python 2.2 之 后 ，Python 的 对 象 世界 和 之 前 的 版 本 相 比 发 生 了 重大 的 变化 ， 有 了 两 种 
不 同 的 类 : 新 型 类 和 传统 类 (经典 类 ) 。 下 面 将 介绍 这 两 种 类 的 不 同 。 


8.2.1 新 型 类 和 传统 类 的 区 别 

在 老 版 本 的 Python 中 ， 并 非 所 有 的 均 是 对 象 ， 内 置 的 数值 类 型 (例如 整 型 、 字 符 型 都 不 
是 类 ) 都 不 能 被 继承 ， 而 在 版 本 2.2 之 后 ， 任 何 内 建 类 型 也 都 是 继承 自 object 类 的 类 ， 凡 是 
继承 自 类 object 或 者 object 子 类 的 类 是 新 型 类 ， 而 不 是 继承 于 object 或 者 object 子 类 的 都 称 
为 传统 类 。 新 的 对 象 模 型 与 传统 对 象 模型 相 比 有 小 但 却 很 重要 的 优势 ，Python 版 本 对 传统 类 
的 支持 主要 是 为 了 兼容 性 ， 所 以 使 用 类 的 时 候 推 荐 从 现在 开始 直接 使 用 新 型 类 。 


胃 Python 的 设计 也 并 非 完 美 ， 因 为 一 开始 未 能 将 内 建 类 型 设计 为 类 ， 在 新 版 本 中 为 了 
保持 兼容 性 ， 不 得 不 将 类 划分 为 两 种 类 ， 这 使 得 Python 的 对 象 模型 不 那么 清晰 简 ; 
单 ， 而 Python 社区 从 Python 3 版 本 开始 ， 将 放弃 兼容 性 ， 在 Python 3. 义 版 本 中 将 只 [ 
存在 新 型 类 。 


新 型 类 是 继承 自 类 object 或 者 object 子 类 的 ， 实 际 上 所 有 的 内 建 类 型 都 是 从 object 继承 
而 来 的 ， 可 以 用 函数 issubclass0 来 验证 。 当 存在 子 类 和 父 类 关系 的 时 候 ，issubclass() 返 加 
True， 不 存在 则 返回 False， 例 如 : 


>>> issubclass (int,object) 


True 
>>> issubclass (float, object) 
True 
>>> issubclass (list,object) 
True 
>>> issubclass (dict,object) 


True 
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>>> class Cs: 


pass 


>>> issubclass(C,object) 


False 


从 上 面 的 代码 可 以 看 出 ，list、int、float、dict 都 是 object 的 子 类 ， 而 类 C 没有 继承 于 
object， 所 以 是 传统 类 。 


8.2.2 


类 方法 和 静态 方法 


新 的 对 象 模型 提供 了 两 种 类 的 新 方法 : 静态 方法 和 类 方法 。 在 新 版 本 的 Python 中 ， 传 统 
类 也 支持 了 类 方法 (但 是 不 支持 静态 方法 ) 。 


静态 方法 可 以 直接 被 类 或 3 


例 调 用 ， 没 有 常规 方法 那样 的 规则 限制 〈 绑 定 、 非 绑 定 、 


默认 的 第 一 个 参数 规则 等 ) ， 也 就 是 说 静态 函数 的 第 一 个 参数 不 需要 指定 为 self， 也 不 需要 
只 有 对 象 〈 类 的 实例 ) 才能 调用 。 例 子 8.4 是 类 的 常规 方法 和 静态 方法 的 对 比 。 


例子 8.4 ”常规 方法 和 静态 方法 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
2 
13 
14 
15 
16 
17 
18 
bh 
20 
2 
22 
23 
24 
25 


>>> class ClassAl(object): 
@staticmethod 
def teststatic(aa): 
print (aa) 
def testnormal (aa): 
print (aa) 
def testnormal2 (self,aa): 


print (aa) 


>>> ClassA.teststatic(33) 
33 
>>> ClassA.testnormal (33) 
33 
>>> ClassA.testnormal2 (33) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: testnormal2() missing 1 required positional argument: 'aa' 
>>> in A = ClassR() 
>>> in A.teststatic(33) 
333 
>>> in A.testnormal (33) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: testnormal () takes 1 positional argument but 2 were given 


>>> in A.testnormal2 (33) 
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26 3 


芝 沁 bd 


类 ClassA 定义 了 3 种 不 同 的 方法 : teststatic0 、testnormal0 、testnormal20。 其 中 ， 定 义 
teststaticO 前 面 一 行 加 了 静态 方法 的 说 明 语 法 @staticmethod， 所 以 teststatic0 是 静态 函数 ， 
testnormal() 和 testnormal20 的 区 别 在 于 ，testnormal20 的 第 一 个 参数 是 self。 在 上 面 的 例子 


@ 使 用 类 调用 这 3 种 不 同 的 方法 


里 ， 分 别 用 类 和 类 的 实例 化 之 后 的 对 象 调用 这 3 个 不 同 的 方法 ， 可 以 看 到 它们 的 运行 结果 。 


调用 静态 方法 teststatic0 可 以 正确 运行 出 结果 ， 实 例 方法 testnormal0 也 能 得 到 结果 ， 而 


testnormal2() 则 无 法 正确 调用 。 
@ ”使 用 类 的 实例 去 调用 这 3 种 不 同 的 方法 
静态 方法 teststatic0 可 以 正确 运行 结果 ， 而 testnormal0 无 法 正确 运行 ， 


这 是 因为 


testnormal0 的 第 一 个 参数 不 是 self， 而 当 一 个 类 实例 对 象 调用 该 常规 方法 时 ， 是 自动 将 类 实 
例 对 象 作为 第 一 个 参数 传 给 该 方法 ， 所 以 调用 testnormal0 的 时 候 ，Python 解释 器 会 提示 


testnormal() 函 数 只 定义 了 一 个 参数 ， 而 传 了 两 个 参数 给 它 。 


定义 一 个 类 方法 ， 只 需要 在 方法 前 加 上 人 @classmethod 描述 语法 就 可 以 了 ， 例 妃 


>>> class ClassAl(object): 
@classmethod 
def testclass(cls,aa): 

print (aa) 

>>> ClassA.testclass (33) 

EK 

>>> inst=ClassA() 

>>> inst.testclass (33) 

33 


使 用 类 的 实例 来 调用 ， 都 是 将 类 作为 第 一 个 参数 传 入 。 


8.2.3 ”新 型 类 的 特定 方法 
1._new_ 和 init 方法 


上 面 例子 中 ClassA 的 方法 testclass0 是 一 个 类 方法 ， 不 管 是 使 用 类 来 调用 这 个 方法 或 者 


新 型 类 包含 一 个 _new_ 方法， 当 一 个 类 C 调用 C(*args,**kwds) 创 建 一 个 C 类 实例 时 ， 
Python 内 部 实际 上 调用 的 是 C. new_(C,*args,**kwds)。new 方法 的 返回 值 x 就 是 该 类 的 实 
例 对 象 ， 在 确认 x 是 C 的 实例 以 后 ，Python 调用 C. init (x,*args,**kwds) 来 初始 化 这 个 实 


例 ， 例 如 : 


>>> class Cl(object): 


def _new (cls): 
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print ("this is C new method") 
eturn Object: new (clis) 

dec nc (snes 
print ("this is C init method") 


>>> cc=C() 
this is C new method 


this is C init method 


实际 上 Python 会 将 上 面 的 cc=CO 这 行 代码 转换 成 如 下 代码 : 


>>> X = C. new (Cc) 

this is C new method 

>>> if isinstance(x, C): 
C. init _(x) 


this is C init method 


object._new_ 的 作用 是 接受 一 个 类 参数 所 以 _new_ 第 一 个 参数 为 cls) ， 返 回 该 类 参 
数 的 实例 (也 是 返回 self) ， 然 后 Python 判断 该 实例 是 该 类 的 实例 ， 就 调用 该 类 的 _init 对 
该 类 实例 做 _init_ 初 始 化 操作 〈 所 以 _init 的 第 一 个 参数 为 self) 。 从 中 可 以 看 出 新 型 类 的 
方法 _new 和 _init ， 前 者 用 来 分 配 内 存 生成 类 实例 ， 后 者 对 类 实例 对 象 做 初始 化 操作 。 


不 要 将 新 型 类 的 _new_ 方法 和 元 类 的 _new_ 方 法 混 清 ， 新 型 类 的 _new_ 用 来 生成 类 i 
的 实例 ， 而 元 类 的 _new_ 用 来 生成 类 。 E 


新 型 类 的 方法 _new_ 能够 生成 类 的 实例 ， 可 以 用 _new_ 来 实现 一 些 传统 类 无 法 做 到 的 
功能 。 例 如 ， 可 以 让 一 个 类 只 能 实例 化 一 次 : 


>>> class Cl(object): 
_objectpool={} 
def new (cls): 
if not cls in cls. objectpool: 
cls. objectpool[cls]=object. new (cls) 


return cls. objectpool[cls] 


>>> x=C() 
>>> Y=C() 
>>> id(x) 
2782665276608 
>>> id(Y) 
2782665276608 


在 上 面 的 例子 中 ， 类 C 定义 了 私有 变量 objectpool， 用 来 存放 类 C 的 实例 化 对 象 ， 当 
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_ new” 生成 该 类 的 实例 对 象 时 ， 先 到 _objectpool 中 查看 是 否 已 有 实例 化 的 对 象 ， 如 果 没 有 
才 调 用 object_new_ 去 实例 化 对 象 ， 所 以 类 C 只 能 实例 化 出 一 个 对 象 。 

2. _getattribute _ 方法 

新 型 类 的 __getattribute “方法 由 基 类 对 象 提供 ， 负 责 实 现 对 象 属性 引用 的 全 部 细节 。 新 
型 类 在 调用 它 自 身 的 类 或 者 方法 时 ， 实 际 上 都 是 先 通过 该 方法 来 调用 ， 例 如 : 

>>> class C(object): 


def test(self): 


print("this is test!") 


def _ getattribute (self,name): 
print ("calling to "+name) 
return object. getattribute (self,name) 
>>> x=C() 
>>> x.test() 


calling to test 
Ethie ts test! 


在 上 面 的 代码 中 ， 类 C 定义 了 一 个 方法 test0， 并 在 调用 object. getattribute _ 前 打印 字 
和 ， 所 以 当 C 的 实例 类 x 调用 test0 方 法 时 ， 结 果 不 是 打印 一 行 字 符 串 而 是 两 行 字符 串 。 

因为 新 型 类 调用 自身 的 属性 和 方法 时 都 会 先 调用 _getattribute _， 所 以 可 以 使 用 
getattribute “去 处 理 一 些 特殊 的 需求 ， 例 如 隐藏 父 类 的 方法 : 


class listNoAppend (list): 


ES 


def _getattribute (self, name): 
if name == '‘'append': raise AttributeError ("name") 


return list. getattribute (self, name) 
上 面 的 代码 定义 了 listNoAppend 类 (继承 自 内 建 类 型 list 类 ) ， 重 定义 了 _getattribute 
方法 。 当 调用 append() 方 法 时 直接 抛 出 AttributeError 异常 ， 相 当 于 隐藏 了 list 的 append0 方 
法 。 


8.2.4 新 型 类 的 特定 属性 
内 建 property 类 用 来 绑 定 类 实例 的 方法 ， 并 将 其 返回 值 绑 定 为 一 个 类 属性 ， 它 的 定义 语 
法 如 下 : 


attrib = property (fget=None, fset=None, fdel=None, doc=None) 


假设 在 一 个 类 C 里 如 上 定义 了 attrib 属性 (通过 property 来 创建 的 ) ,而 x 是 C 的 一 个 
实例 ， 那 么 当 引 用 x.attrib 时 ，Python 会 调用 fget0 方 法 取 值 ， 当 为 x.attrib 赋值 x.attrib=value 
时 ，Python 会 调用 fset0 方 法 ， 并 且 value 值 作为 fset0 方 法 的 参数 ， 当 执行 del x.attrib 时 ， 
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Python 调用 fael0 方 法 ， 传 过 去 的 名 为 doc 的 参数 即 为 该 属性 的 文档 字符 串 。 如 果 不 定 义 
fset0 和 fdel0 方 法 ， 那 么 attrib 就 将 是 一 个 只 读 属性 。 
property 可 以 方便 地 将 一 个 函数 的 返回 值 转换 为 属性 。 这 在 很 多 场合 是 非常 有 用 的 ， 例 
如 定义 一 个 长 方形 类 ， 如 果 要 将 它 的 面积 也 作为 一 个 属性 ， 就 可 以 用 property 将 计算 面积 的 
方法 绑 定 为 一 个 属性 ， 例 如 : 
class Rectangle (object): 
def _ init (self, width, heigth): 
self.width = width 
self.heigth = heigth 


def getArea (self): 
return self.width * self.heigth 


area = property (getArea, doc='area of the rectangle') 
在 上 面 的 代码 中 ，getArea0 是 一 个 计算 面积 的 方法 ， 使 用 property 将 该 方法 的 返回 值 转 
换 为 属性 area， 这 样 引用 Rectangle 的 area 时 ，Python 会 自动 使 用 getArea0 计 算出 面积 。 在 
这 个 例子 里 ，property 只 指定 了 fget0 方 法 ， 没 有 指定 人 et0 和 ftael0， 所 以 area 属性 是 一 个 只 


8.2.5 类 的 super() 方 法 

新 型 类 提供 了 一 个 特殊 的 方法 super()。super(aclass,obj) 返 回 对 象 obj 的 一 个 特殊 的 超 对 
象 (superobject) 。 当 我 们 调用 该 超 对 象 的 一 个 属性 或 方法 时 ， 就 保证 了 每 个 父 类 的 实现 均 
被 调用 且 仅 仅 调用 一 次 。 例 子 8.5 是 super0 方 法 的 一 个 应 用 实例 。 
例子 8.5 ”super() 方 法 的 使 用 


01 >>> class Al(object): 


te def met (self): 
SEE PEint('RA.met') 
i 

05 “>5> Class BAM: 

人 def met (self): 

1 print('B.met') 
Do A.met (self) 
a 

1 全 >> Class CA)S 

tin def met (self): 
Le print('C.met') 
1 A.met (self) 

14 

15 S33> class D(BrC): 

16 re def met (self): 

Ln a print ('D.met') 
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18 
19 
20 
2 
22 
23 
24 
25 
26 
2 
28 
29 
30 
31 
32 
过 号 
34 
35 
36 
3 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 


第 


调 


B.met (self) 


C.met (self) 


>>> x=D() 
>>> X-met() 
D.met 
B.met 
A.met 
C.met 
A 


-met 


>>> class Al(object): 
def met (self): 
print ('A.met') 


>>> class B(A): 
def met (self): 
print('B.met') 


super (B, self) .met( ) 


>>> class C(A): 
def met (self): 
print('C.met') 


super (C, self) .met( ) 


>>> class D(B,C): 
def met (self): 
print('D.met') 


super (D, self) .met( ) 


>>> x=D() 
>>> x.met() 
-met 

-met 


.met 


Dp» NAmD 


-met 


1~20 行 代码 采 上 


传统 的 直接 调用 父 类 的 同名 方法 ， 无 法 避免 类 A 的 方法 被 重复 调 


日 。 第 28~45 行 的 代码 则 使 用 了 一 个 特殊 的 super0 方 法 ， 可 以 保证 父 类 的 方法 只 被 并 且 均 被 
-次 。 


8.2.6 ”新 型 类 的 小 结 
相 较 于 传统 类 ， 新 型 类 支持 了 更 多 特性 和 机 制 ， 有 着 更 多 的 弹性 ， 例 如 可 以 定制 实例 化 
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的 过 程 ， 尤 其 是 在 多 重 继承 的 情况 下 能 避免 传统 类 存在 的 缺陷 ， 所 以 不 同 于 元 类 的 情况 ， 在 
所 有 使 用 类 的 时 候 ， 都 应 当 尽 量 使 用 新 型 类 、 避 免 使 用 传统 类 。 在 Python 3.X 中 已 经 不 存在 
传统 类 。 目 前 传统 类 存在 的 意义 主要 是 为 了 保持 之 前 的 Python 代码 的 兼容 性 。 


8 员 . 本 齐 小 结 


本 章 主 要 讨论 了 元 类 和 新 型 类 ， 元 类 是 Python 的 高 级 主题 ， 因 为 在 其 他 计算 机 语言 不 多 
见 ， 所 以 较 难 以 理解 ， 可 以 认为 类 是 元 类 的 实例 。 类 的 定义 实际 就 是 元 类 调用 _new_ 方法 
来 实例 化 该 类 的 过 程 ， 所 以 元 类 有 着 “ 神 不 知 鬼 不 觉 ” 地 修改 类 的 定义 的 能 力 。 使 用 这 个 能 
力 ， 能 够 让 程序 更 加 灵活 和 方便 ， 不 过 前 提 条 件 是 不 能 因此 让 程序 变 得 复杂 和 难以 理解 。 

相 较 于 传统 类 ， 新 型 类 支持 了 更 多 的 方法 和 属性 ， 更 灵活 ， 更 有 弹性 ， 尤 其 是 在 多 重 继 
承 的 情况 下 ， 新 型 类 的 处 理 方法 更 加 合理 。Python 3.X 版 本 都 只 支持 新 型 类 ， 虽 然 本 文 涉及 
部 分 传统 类 的 概念 ， 但 只 是 为 了 让 读者 在 碰 到 旧版 本 代码 时 有 一 个 基本 的 了 解 。 
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s8 9 音 


第 9 章 
读 代 器 、 生 把 器 和 修饰 器 


本 章 将 要 介绍 Python 办 代 器 、 生 成 器 、 器 的 内 容 。 迁 代 、 生 成 和 修饰 实际 上 都 是 常 
用 的 设计 模式 。 ad 省 STL (C++ 标准 库 ) 中 的 友 代 器 。 在 STL 
中 ， 友 代 器 对 象 是 提供 对 容器 进行 访问 操作 的 对 象 ; 在 Python 中 ， 迭 代 器 的 概念 则 不 大 相 
同 。 修 饰 器 模式 是 在 一 个 对 象 的 外 围 创建 一 个 称 为 修饰 器 的 封装 ， 动 态 地 给 这 个 对 象 添加 一 
些 额外 的 功能 ， 有 oa 从 语法 层次 提供 了 一 个 很 方便 的 修饰 器 用 法 。 

本 章 的 主要 内 容 是 

@。 迁 代 器 的 概念 。 

@@ 生成 器 的 概念 。 

@ 修饰 器 的 应 用 。 


迭代 器 和 生成 器 


迭 代 器 和 生成 器 是 Python 中 非常 重要 的 组 成 部 分 。 Bython 程序 也 可 以 不 使 用 迭代 器 和 生 
成 器 ， 不 过 那 相 当 于 放弃 了 Python 的 一 大 利器 ， 非 常 可 异 


9.1.1 和 迭代 器 的 概念 

在 STL 中 ， 和 迭代 器 实际 上 是 C/C++ 指针 的 包装 ， 用 来 对 特定 的 容器 进行 访问 ， 能 够 用 来 
遍历 STL 容器 中 的 部 分 或 全 部 元 素 。 迭 代 器 提供 一 些 基 本 操作 符 : *、++、 一 、! =、=。 这 
些 操作 和 C/C++“ 操 作 array 元 素 ” 时 的 指针 接口 一 致 。 不 同 之 处 在 于 ， 友 代 器 是 一 个 所 谓 
的 smart pointers 〈 智 能 指针 ) ， 具 有 遍历 复杂 数据 结构 的 能 力 。Python 友 代 器 的 概念 和 STL 
的 迭代 器 有 较 多 不 同 ， 其 概念 超越 容器 的 迭代 器 ， 使 得 用 户 定 义 的 类 支持 迭代 。 

在 Python 中 ， 和 迭代 器 对 象 需要 支持 _iter (和 next0 两 个 方法 。 其 中 ，_ iter 0 返回 迭 
代 器 自身 ，next0 返 回 系 列 的 下 一 个 元 素 。 例 子 9.1 是 一 个 支持 迭代 的 类 。 


例子 9.1 支持 迭代 的 类 


>>> class simple range (object): 


def _ init (self, num): 


self.num = num 
def ”Iter ‘(Self)s 

return self 
def next (self): 


if self.num <= 0: 


raise StopIteration 


tmp = self.num 
self.num -= 1 


return tmp 


>>> a=simple range(5) 
>>> a.next () 


>>> a.next () 


>>> a.next () 


>>> a.next () 


>>> a.next () 


>>> a.next () 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "<stdin>", line 8, in next 


StopIteration 
>>> 


类 simple_range 是 一 个 迭代 对 象 ， 定 义 了 __iter _0 和 next(0 方 法 。 迭 代 对 象 有 一 个 状态 
self_num， 每 次 执行 nextO 操 作 都 需要 判断 该 状态 ， 如 果 小 于 等 于 0 就 说 明 友 代 结束 。 
对 列表 和 元 组 做 for.….in 遍历 操作 的 时 候 ，Python 实际 上 是 通过 列表 和 元 组 的 迭代 对 象 


来 实现 的 。for...in 操作 的 其 实 是 列表 和 元 组 的 迭代 对 象 ， 而 


>>> lis=[1,2,3,4,5] 
33 E0r XK Ln Tis 


print (x) 
I 
3 
4 
3 
>>> list iter=lis. iter {() 


SS print (type(list iter)) 


不 是 列表 和 元 组 本 身 ， 例 如 : 
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class “list jterator'> 
>>> for x in List Tter: 


print (x) 


dWONP,.: 


从 上 面 的 代码 可 以 看 出 ， 列 表 的 _iter 方法 返回 的 是 一 个 list_iterator 类 型 的 对 象 ， 
for...in 操作 实际 上 作用 的 是 该 迭代 对 象 ， 代 码 for x in lis 操作 实际 上 等 同 于 for x in 
lis._iter 0 操作， 操作 的 过 程 实际 是 通过 iter 获得 迭代 器 对 象 ， 不 断 地 调用 迭代 器 对 象 
的 next0 方 法 ， 一 直到 next0 方 法 返回 StopIteration 异常 。 


9.1.2 生成 器 的 概念 
对 于 一 个 类 来 说 ， 支 持 线性 遍历 操作 可 以 通过 _iter 或 next0 方 法 来 实现 ， 不 过 这 种 实 
现 方法 不 够 灵活 、 方 便 ， 特 别 是 对 于 一 个 函数 来 说 ， 函 数 没有 属性 变量 去 存放 状态 ， 所 以 让 
函数 用 这 种 方法 来 支持 线性 遍历 是 不 可 能 的 。 不 过 Python 3.X 支持 使 用 yield 生成 器 的 方法 
来 进行 线性 遍历 。 
在 Python 中 ，yield 语句 仅 用 以 定义 生成 器 函数 ， 而 且 只 能 出 现在 生成 器 函数 内 ， 在 函 
数 定义 中 使 用 yield 语句 的 充分 理由 是 想 实现 一 个 生成 器 函数 而 不 是 普通 函数 ， 当 生成 器 函数 
被 调用 时 返回 一 个 生成 器 。 
生成 器 的 概念 源 自 协同 工作 的 程序 ， 比 如 消费 者 和 生产 者 模型 ，Python 生成 器 的 概念 就 
是 其 中 的 生产 者 Producer 角色 (数据 提供 者 的 意思 ) ， 每 次 生成 器 程序 就 等 在 那里 ， 一 旦 上 
户 ( 消 费 者 Consumer 角色 ) 调用 next( 方 法 ， 生 成 就 继续 向 下 执行 一 步 ， 然 后 把 当前 遇 到 的 
内 部 数据 的 Node 放 到 一 个 消费 者 用 户 能 够 看 到 的 公用 的 缓冲 区 〈 比 如 ， 直 接 放 到 消费 者 线 
程 栈 里 面 的 局 部 变量 ) 里 ， 然 后 停 下 来 等 待 (wait) 。 最 后 消费 者 用 户 从 缓冲 区 里 获得 
Node。 
例如 ， 使 用 Python 的 yield 来 实现 一 个 无 限 数据 的 生成 器 : 


>>> def infinite() : 


n=1 

while 1: 
yield n 
n= 


>>> ge=infinite() 


>>> next (ge) 
3 
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>>> next (ge) 
区 
>>> next (ge) 
| 
>>> next (ge) 
4 
# 后 面 可 以 一 直 执行 下 去 


上 面 的 代码 定义 了 一 个 生成 器 函数 infinite0， 关 键 是 yield n 表达 式 。 生 成 器 就 如 同 数据 
提供 者 ， 只 有 在 用 户 调用 next() 方 法 时 ， 生 成 器 才 将 内 部 数据 的 Node 提供 出 来 并 停 下 来 进入 
wait 状态 。yield n 表达 式 的 作用 就 是 生成 器 的 这 个 功能 。 

yield 表达 式 的 功能 可 以 分 成 两 部 分 : 

@@ 将 0n 返 回 给 用 户 。 

@ 进入 wait and get 状态 ， 可 以 理解 为 程序 在 这 个 位 置 暂停 ， 当 消费 者 再 次 调用 next() 

方法 的 时 候 ， 程 序 才 会 在 这 个 位 置 激活 。 

生成 器 和 迭代 器 很 相似 ， 其 实 它 们 都 是 消费 者 和 生产 者 模型 ， 都 是 用 户 通过 next0 方 法 
来 获得 数据 ， 而 生成 器 和 人 迭代 器 都 是 只 有 用 户 在 调用 next0 时 才 返 回 数据 。 不 同 的 是 迭代 器 
是 通过 自己 实现 next0 方 法 来 逐步 返回 数据 ， 而 生成 器 则 使 用 yield 自动 完成 了 提供 数据 并 且 
让 程序 进入 wait 状态 ， 等 待 用 户 的 进一步 操作 ， 所 以 生成 器 更 加 灵活 和 方便 。 


9.1.3 生成 器 yield 语法 


1. yield 是 表达 式 
在 Python 3.X 中 ，yield 成 为 表达 式 ， 不 再 是 语句 ， 但 是 必须 放 在 函数 内 部 ， 如 果 写 成 语 
名 的 形式 ， 实 际 上 返回 值 被 扔 掉 了 ， 例 如 : 


Yield n 


x=yield n 
yield 是 表达 式 ， 可 以 和 其 他 表达 式 相 组 合 ， 所 以 下 列 语句 都 是 合法 的 : 


2Z=x+y* (yield 2) 
A=b+c+td+yield c 


2. 生 成 器 的 next() 方 法 

当 用 户 调用 next0 方 法 ， 执 行 到 yield 表达 式 时 ， 先 返回 n， 然 后 程序 进入 wait 状态 ， 只 
有 当下 一 次 执行 nextO 时 才 会 从 此 处 恢复 ， 继 续 执 行 下 面 的 代码 ， 一 直 执 行 到 下 一 个 yield 代 
码 。 如 果 没 有 一 个 yield 代码 ， 就 抛 出 StopIteration 异常 ， 例 如 : 


>>> def test()}): 


print(”y step”) 
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yield 1 
print("2 step") 
Vield 2 
print("3 end") 


>>> h=test () 

>>> next (h) 

1 step 

br 

>>> next (h) 

2 step 

2 

>>> next (h) 

3 end 

Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 


StopIteration 


3. 生成 器 的 send(msg) 方 法 

执行 一 个 send(msg) 会 恢复 生成 器 的 运行 ， 然 后 发 送 的 值 将 成 为 当前 yield 表达 式 的 返回 
值 。 程 序 恢复 运行 之 后 ， 继 续 执 行 下 面 的 代码 ， 一 直 执 行 到 下 一 个 yield 代码 ， 如 果 没 有 一 个 
yield 代码 ， 就 抛 出 StopIteration 异常 。 

当 使 用 send(msg) 发 送 消息 给 生成 器 时 ，wait_and_get 会 检测 到 这 个 信息 ， 然 后 唤醒 生 
成 器 ， 同 时 该 方法 获取 msg 并 赋值 给 x。 理 解 了 这 一 点 ， 例 子 9.2 的 代码 也 就 不 难 理解 了 。 
例子 9.2 生成 器 send() 方 法 的 应 用 


01 >>> def test() : 


| pS print('step 1°') 

NE 六 x = yield 1 

1 print('step 2', 'x=', x) 
四 y = yield 2 

OG ee print('step 3', 'y=', y) 
07 


08 >>> g=test () 
09 >>> next(g) 
10 step 1 

pr ee 1 

12 5S>7 gsendt(s) 
13 step 2 x= 5 
14 2 

15 >>> g.send(9) 
16 step 3 y= 9 
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17 Traceback (most recent call last): 
18 File "<stdio>", line 1, in <module> 
19 StopIteration 

220 >>> 


例子 9.2 中 的 函数 test 可 以 转换 成 如 下 代码 : 


>>> def test() : 

print("'step 1°") 
put (1) 

x = wait and get() 
print('step 2', 'x="', Xx) 
put (2) 

Y = wait and get() 
print( step 3 Sy="r VY) 


在 例子 9.2 中 ， 第 一 次 调用 next0 方 法 的 时 候 (代码 第 9 行 ) ， 执 行 到 第 一 个 


wait and_get 处 时 生成 器 进入 wait 状态 并 打印 step 1 和 1。 接 着 在 第 12 行 调 


send() 方 法 的 


时 候 从 第 一 个 wait_and_get 处 启动 生成 器 ， 并 把 send0 方 法 的 参数 5 赋 给 变量 x。 然 后 继续 执 
行 下 面 的 代码 ， 一 直 执 行 到 第 二 个 wait_and_get 处 ， 生 成 器 又 进入 wait 状态 。 当 在 第 15 行 
再 一 次 调用 send0 方 法 的 时 候 ， 生 成 器 从 第 二 个 wait_and_get 处 启动 ， 并 把 send0 方 法 的 参数 
9 赋 给 变量 y， 因 为 后 面 没有 yield 表达 式 了 ， 所 以 生成 器 抛 出 StopIteration 异常 。 

需要 注意 的 是 ， 第 一 个 调用 要 么 使 用 nextD)， 要 么 使 用 send(None)， 不 能 使 用 send0 来 发 
送 一 个 非 None 的 值 ， 原 因 是 非 None 值 是 发 给 wait_ and_get 的 。 一 开始 程序 并 没有 停 在 
wait_and_get 代码 处 ， 只 有 先 使 用 next 或 者 send(None) 方法 以 后 才 会 停 在 wait_and_get 处 ， 


这 时 才能 使 用 send 发 送 一 个 非 None 值 ， 例 如 : 


>>> h=test () 

>>> h.send(1) 

Traceback (most recent call last): 
File "<stdio>", line 1, in <module> 


TypeError: can't send non-None value to a just-started generator 


>>> h.send (None) 
step 1 
I 


4. 生成 器 的 throw() 方 法 


生成 器 提供 throw0 方法 从 生成 器 内 部 来 引发 异常 ， 从 而 控制 生成 器 的 执行 。 例 如 ， 可 


以 向 生成 器 发 送 一 个 GeneratorExit 异常 : 


>>> h.throw (GeneratorExit) 
Traceback (most recent call last): 
File "<pyshell#122>", line 1, in <module> 


h.throw (GeneratorExit) 
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File “<pyshell#113>", line 3, in test 
yield 1 


GeneratorExit 

GeneratorExit 是 Python 2.5 增加 的 异常 ， 作 用 是 让 生成 器 有 机 会 执行 一 些 退 出 时 的 清理 
工作 。 

5. 关闭 生成 器 

生成 器 提供 了 一 个 close0 方法 来 关闭 生成 器 。 当 使 用 close0 方法 时 ， 生 成 器 会 直接 从 
当前 状态 退出 ， 再 使 用 nextO 方法 会 得 到 一 个 StopIteration 异常 ， 例 如 : 


>>> next (h) 


step 1 
由 
>>> h.close() 
>>> next (h) 
Traceback (most recent call last): 
File "<pyshell#133>", line 1, in <module> 
next (h) 
StopIteration 
实际 上 close0 方 法 也 是 通过 throw0 方 法 发 送 GeneratorExit 异常 来 关闭 生成 器 的 ， 其 实现 
相当 于 如 下 代码 : 
>>> def close(self) : 
trys 
self.throw (GeneratorExit) 
except (GeneratorExit, StopIteration): 
pass 


else: 


raise RuntimeError ("generator ignored GeneratorExit") 


9.1.4 生成 器 的 用 途 


1. 相对 于 列表 、 元 组 ， 生 成 器 更 节省 内 存 

生成 器 一 次 产生 一 个 数据 项 ， 直 到 没有 为 止 ， 在 for 循环 中 就 可 以 对 它 进行 循环 处 理 。 
相对 于 列表 或 者 元 组 ， 生 成 器 一 次 只 返回 一 个 数据 项 ， 占 用 内 存 更 少 ， 但 是 需要 记 住 当前 的 
状态 ， 以 便 返 回 下 一 个 数据 项 。 生 成 器 是 一 个 有 next0 方 法 的 对 象 。 序 列 类 型 则 保存 了 所 有 
的 数据 项 ， 它 们 的 访问 是 通过 索引 进行 的 。 

例如 ， 求 公元 1900~2000 年 的 所 有 阔 年 ， 可 以 使 用 下 


>>> def getyear (Startvend) : 


面 的 代码 : 


year=[] 
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for i in Tange (startrend+1) : 
if i$%4==0 and i%100!=0: 
year.append (i) 
elif i%400==0: 
year.append (i) 


return year 


>>> print (getyear (1900,2000)) 
[1904, 1908, 1912, 1916, 1920, 1924, 1928, 1932, 1936, 1940, 1944, 1948, 
1952, 1956, 1960, 1964, 1968, 1972, 1976, 1980, 1984, 1988, 1992, 1996, 2000] 


上 面 的 getyear0 函 数 使 用 列表 year 来 存放 国 年 的 年 份 ， 如 果 结 果 值 很 多 ， 列 表 list 就 要 
消耗 较 大 的 内 存 。 如 果 使 用 生成 器 ， 每 次 next0 方 法 获得 一 个 年 份 ， 相 对 于 列表 能 更 节省 内 
存 ， 例 如 : 


>>> def getyear(start,end): 


for i in range(start,end+1): 
if i%4==0 and i%100!=0: 
yield i 
elif i%400 


yield i 


>>> year gen=getyear(1900,2000) 
>>> next (year_gen) 

1904 

>>> next (year_gen) 

1908 

>>> next (Year_gen) 

LT2 

>>> next (year_ gen) 

1916 


上 面 的 代码 将 getyear0) 改 成 生成 器 结构 ， 因 为 yield 每 次 都 返回 一 个 结果 ， 所 以 更 节省 内 存 。 
2 . 线性 遍历 访问 数据 

生成 器 可 以 将 非 线 性 化 的 处 理 转 换 成 线性 化 的 方式 ， 典 型 的 例子 就 是 对 二 又 树 的 访问 。 
传统 的 方法 是 使 用 递归 函数 来 访问 和 处 理 ， 例 如 : 


def deal tree (node) : 


让 


if not node: 
return 
if node.leftnode: 
deal tree (node.leftnode) 


process (node) 
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if node.rightnode: 


deal tree (node.rightnode) 
上 面 的 deal_tree0 方 法 是 一 个 递归 函数 ， 为 了 处 理 该 数 的 每 一 个 节点 ， 需 要 将 处 理 方法 
processO 放 到 访问 的 过 程 中 ， 既 容易 出 错 ， 也 不 清晰 。 比 较 好 的 方法 是 先 将 树 的 节点 访问 转 
换 成 线性 ， 代 码 如 下 : 


def deal tree'(node): 


if not node: 
return 
if node.leftnode: 
for i in walk tree (node.leftnode): 
yield i 
yield node 
if node.rightnode: 
for i in walk tree (node.rightnode) : 


yield i 
将 树 的 访问 转换 成 线性 之 后 ， 可 以 在 deal_tree0 函 数 的 外 面 遍历 每 一 个 节点 ， 例 如 : 


for node in walk tree (oot) : 


Process (node) 


这 样 一 来 ， 处 理 每 个 节点 的 过 程 不 需要 放 到 访问 每 个 节点 的 代码 中 去 ， 更 加 清晰 明了 。 


BRR Es 
多 


修饰 器 也 叫 修饰 器 ， 是 用 于 拓展 原来 函数 功能 的 一 种 函数 。 这 个 函数 的 特殊 之 处 在 于 返 
回 值 是 一 个 函数 。 


9.2.1 修饰 器 模式 

修饰 器 (Decorator) 的 概念 来 自 于 设计 模式 ， 实 际 上 是 设计 模式 里 很 重要 的 一 种 ， 这 里 
用 即时 战略 游戏 中 兵种 的 装甲 强度 来 理解 它 ， 举 一 个 典型 的 例子 ， 魔 兽 争 霸 〈 或 冰峰 王座 
等 ) 中 的 山 丘 是 一 个 非常 厉害 的 角色 ， 经 常 能 够 一 锤 击 丝 敌人 的 英雄 和 士兵 ， 因 此 被 誉 为 英 
雄 杀 手 。 既 然 是 英雄 杀手 ， 就 时 常 需要 冲锋 陷 阵 ， 在 作战 过 程 中 自然 会 面临 敌人 的 围攻 ， 此 
时 我 们 有 多 种 方式 来 提升 山 丘 的 抗击 打 能 

@@ 升级 护 甲 。 

@ ”通过 魔法 师 给 他 施加 增加 防护 的 魔法 .。 

@ ”等 级 到 6 时 使 用 终极 魔法 来 大 幅度 提高 装甲 的 防护 。 

@ ”使 用 无 敌 的 魔法 壮 ， 在 规定 时 间 内 谁 都 拿 他 没 回 。 
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虽然 不 知道 暴雪 公司 的 工程 师 具 体 是 如 何 实现 这 种 功能 设计 的 ， 但 绝对 不 会 是 准备 多 个 
具有 不 同 防御 等 级 的 山 丘 对 象 来 供 程序 调用 ， 如 Shanqiul、Shanqiu2、…… 、ShanqiuN， 这 
样 设计 笨 抽 、 代 码 繁多 ， 如 果 游 戏 中 其 他 兵种 的 装甲 、 攻 击 力 的 设计 都 是 如 此 ， 那 么 代码 的 
复杂 程度 就 难以 接受 了 。 

修饰 器 在 这 种 情况 下 就 可 以 发 挥 作 用 了 : 在 普通 装甲 升级 时 ， 使 用 普通 装甲 升级 的 修饰 
器 ; 在 使 用 终极 魔法 时 ， 使 用 终极 魔法 装甲 升级 的 修饰 器 。 设 计 的 目的 是 为 了 能 够 在 运行 时 
而 不 是 编译 期 来 动态 改变 对 象 的 状态 ， 使 用 组 合 的 方式 来 增 减 Decorator， 而 不 是 去 修改 原 有 
的 代码 来 满足 业务 的 需要 ， 以 利于 程序 的 扩展 。 

修饰 器 模式 是 针对 Java 语言 的 。 为 了 灵活 地 使 用 组 合 的 方式 来 增 减 Decorator，Java 语 
言 需要 使 用 较为 复杂 的 类 对 象 结构 才能 达到 这 种 效果 。Python 从 语法 层次 上 实现 了 使 用 组 合 
的 方式 来 增 减 Decorator 的 功能 ， 相 对 于 Java， 使 用 起 来 更 加 方便 和 灵活 。 


9.2.2 Python 修饰 器 

Python 从 语法 层次 上 支持 了 Decorator 模式 的 灵活 调用 ， 主 要 有 以 下 两 种 方式 。 

(1) 不 带 参数 的 Decorator 

不 带 参数 的 Decorator 的 语法 形式 如 下 : 

Q@RA 

def ££ (Cs 

这 种 形式 是 Decorator 不 带 参数 的 写法 。 最 终 Python 会 处 理 为 : 

£ = R(f) 

这 相当 于 在 函数 f 上 加 一 个 修饰 器 A ， 修 饰 器 的 添加 是 不 受 限制 的 ， 可 以 多 层次 使 
例如 : 

@A 

@B 


@c 
def 上 (3s 


Python 会 将 这 些 处 理 为 : 
£ = R(B(C(E))) 


(2) 带 参数 的 Decorator 
带 参数 的 Decorator 的 语法 形式 如 下 : 


@A (args) 
def FE bs 
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这 种 形式 是 Decorator 带 参数 的 写法 ，Python 会 处 理 为 : 


6 -i 
_deco = Al(args) 
f= decol(f) 


Python 会 先 执 行 A(args) 得 到 一 个 decorator0 函 数 ， 然 后 按 与 第 1 种 一 样 的 方式 进行 处 理 。 


9.2.3 ”修饰 器 函数 的 定义 
每 一 个 Decorator 都 对 应 有 相应 的 函数 ， 要 对 后 面 的 函数 进行 处 理 ， 要 么 返回 原来 的 函数 
对 象 ， 要 么 返回 一 个 新 的 函数 对 象 。 


根据 修饰 器 不 同 的 调用 方法 ， 修 饰 器 函数 也 需要 对 应 不 同 的 定义 ， 说 明 如 下 : 
(1) 第 1 种 调用 的 函数 定义 

一 般 这 种 情况 下 ， 函 数 的 定义 如 下 : 

def RA(func) : 


# 处 理 func 
# 如 func.attr='decorated' 


return func 
@A 
def f(args):pass 
对 func 处 理 后 ， 仍 返回 原 函 数 对 象 。 这 个 decorator( 函数 的 参数 为 要 处 理 的 函数 。 如 果 
要 返回 一 个 新 的 函数 ， 可 以 为 : 


def Al(func): 
def new_func (args) : 
# 做 一 些 额外 的 工作 
return func (args) # 调 用 原 函 数 继续 进行 处 理 
return new_func 
@A 
def f(args):pass 


注意 ，new_func 的 定义 形式 要 与 待 处 理 的 函数 相同 ， 因 此 还 可 以 写 得 通用 一 些 ， 如 : 


def Al(func): 
def new func(*args, **argkw) : 
# 做 一 些 额 外 的 工作 
return func(*args，**argkw) ## 调 用 原 函 数 继续 进行 处 理 
return new_func 


Q@RA 
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def f(args) :pass 
可 以 看 出 ， 在 A 中 定义 了 新 的 函数 ， 然 后 A 返回 这 个 新 的 函数 。 在 新 函数 中 ， 先 处 理 一 
些 事情 ， 比 如 对 参数 进行 检查 或 做 一 些 其 他 的 工作 ， 再 调 原始 的 函数 进行 处 理 。 这 种 模式 可 
以 看 成 ， 在 调用 函数 前 ， 通 过 Decorator 技术 进行 一 些 处 理 。 如 果 想 在 调用 函数 之 后 进行 一 些 
处 理 或 者 再 进一步 ， 可 以 根据 函数 的 返回 值 进行 一 些 处 理 : 
def Al(func): 
def new funcl(*args, **argkw) : 
result = func(*args，**argkw) # 调 用 原 函 数 继续 进行 处 理 
if result: 
# 做 一 些 额外 的 工作 


return new result 


Sl 
return result 
return new func 
@A 
def f(args):pass 
(2) 第 2 种 调用 对 应 的 函数 
针对 第 2 种 调用 形式 ， 如 果 Decorator 在 调用 时 使 用 了 参数 ， 那 么 decorator() 函数 只 会 
使 用 这 些 参数 进行 调用 ， 因 此 需要 返回 一 个 新 的 decorator() 函数 ， 这 样 就 与 第 一 种 形式 一 致 
了 。 
def RA(arg) : 
def Al(func): 
def new_func (args) : 


# 做 一 些 额 外 的 工作 


return func(args) 


return new_func 
return A 
@A (arg) 
def f(args):pass 


可 以 看 出 A(arg) 返回 了 一 个 新 的 decorator _A。 


9.2.4 修饰 器 的 应 用 
Decorator 的 魔力 就 是 它 可 以 对 所 修饰 的 函数 进行 加 工 ， 这 种 加 工 是 在 不 改变 原来 函数 代 
码 的 情况 下 进行 的 ， 并 且 修 饰 函数 可 以 多 层次 任意 组 合 和 添加 ， 和 第 8 章 所 介绍 的 面向 方面 
的 编程 颇 有 相通 之 处 。 
使 用 Decorator 可 以 增加 程序 的 灵活 性 ， 减 少 耦 合 度 ， 适 合 使 用 在 用 户 登 录 检 查 、 日 志 处 
理 等 方面 。 这 种 通过 函数 之 间 相 互 结合 的 方式 更 符合 搭 积 木 的 要 求 ， 可 以 把 函数 功能 进一步 分 
解 ， 使 得 功能 足够 简单 和 单一 ， 然 后 通过 Decorator 的 机 制 灵活 地 把 相关 的 函数 串 成 一 个 串 。 
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例如 ， 


一 个 多 用 户 使 用 的 程序 会 有 很 多 功能 跟 权 限 相关 ， 用 户 的 权限 各 有 不 同 ， 传 统 的 


方法 是 建立 一 个 权限 角色 类 ， 然 后 每 个 用 户 的 权限 角色 都 不 相同 ， 在 各 个 功能 模块 里 对 用 户 
权限 进行 管理 ， 但 是 这 种 方法 不 但 容易 出 错 ， 而 且 对 管理 、 修 改 都 带 来 了 很 多 麻烦 。 如 果 采 


应 上 


来 处 理 


崩 Decorator， 就 可 以 解决 这 个 问题 。 
Decorator， 关 键 之 处 是 如 何 定义 一 个 decorator() 函数 ， 通 过 decorator() 函数 的 调 
户 权 限 的 逻辑 ， 可 以 先 定义 权限 管理 的 类 。 例 子 9.3 是 decorator() 函数 定义 的 一 
个 简单 例子 。 


例子 9.3 ”decorator() 函 数 的 定义 


01 >>>class Permission: 


02 
03 
04 
05 
06 
07 
08 
09 
10 
4 沁 
TS 
14 
15 
16 
> i 
18 
下 学 
20 
2 
2 


def Tnit Wseif)s 
pass 
def needUserPermission(self, function): 
def new func(*args, **kwargs): 
obj = args[0] 
if obj.user.hasUserPermission(): 
ret = function(*args, **kwargs) 
else: 
ret = "No User Permission" 
return ret 


return new_ func 


def needAdminPermission(self, function): 
def new func(*args, **kwargs): 
obj = args[0] 
if obj.user.hasAdminPermission(): 
ret = function(*args, **kwargs) 
else: 
ret = "No Admin Permission" 
return ret 


return new func 


例子 9.3 定义 了 一 个 类 Permission， 提 供 了 两 个 不 同 的 decorator() 函数 : 一 个 是 针对 管 


理 员 权 限 


内 ， 一 个 是 针对 普通 用 户 权 限 的 。 这 个 函数 定义 的 关键 是 


7~11 行 ) 。 当 经 过 hasUserPermission 或 者 hasAdminPermission 判断 


时 ，decoratorO 函 数 会 返回 调 


要 使 上 


Permission = Permission() 


然后 ， 在 处 理 实 际 业 务 代 码 的 时 候 ， 只 要 为 需要 的 功能 加 上 实际 的 权限 限制 Decorator 就 


可 以 了 : 
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返回 


值 的 处 理 〔 代 码 第 


< 


户 拥有 对 应 的 权限 


以 它 为 修饰 器 的 函数 ， 和 否则 返回 一 个 告警 提示 。 
Permission 作为 修饰 器 ， 实 现 要 实例 化 该 类 : 


class Action: 


def _ init (self, name): 
self.user = UserService.newUser (name) 
Q@permission.needUserPermission # 需 要 用 户 权 限 


def listAllPoints (self): 

return "TODO: do real list all Points” 
epermission.needRAdminPermission 考 需要 管理 员 权限 
def setup(self) : 

return "TODO: do real setup" 


对 业务 方法 的 调用 跟 以 前 没有 任何 区 别 : 


二 EE name == ”main ™: 


action = Rction('user') 
print (action.listAllPoints()) # 将 会 执行 真正 的 业务 代码 
print (action.setup()) # 将 会 返回 “No Rdmin Permission” 


从 这 个 例子 可 以 看 出 ， 相 对 于 传统 方法 ，Decorator 使 用 起 来 还 是 拥有 很 大 优势 的 ， 可 以 


使 用 户 权 限 检查 这 些 琐碎 的 工作 和 业务 调用 代码 相 和 剥离 ， 并 且 能 够 检测 函数 方便 地 修饰 到 业 


务 逻 辑 代 码 之 上 。 


9 .3 了 3 本 章 小 结 


本 章 主 要 介绍 了 迭代 器 、 生 成 器 、 修 饰 器 ， 其 中 生成 器 、 修 饰 器 都 是 Python 3.X 支持 的 
特性 。 在 Python 社区 中 ， 有 不 少 人 认为 本 章 的 这 些 概念 带 有 过 多 的 函数 式 的 特性 ， 影 响 了 


Python 语言 简单 实 上 


的 风格 。 不 过 仔细 了 解 这 3 个 概念 之 后 ， 就 会 发 现 这 3 个 语言 特性 在 某 


些 情 况 下 确实 对 编程 很 有 帮助 ， 能 够 帮助 程序 员 更 快 更 好 地 完成 某 些 功能 。 
阅读 完 本 章 ， 请 读者 思考 下 列 问 题 : 
@ ”生成 器 的 特点 是 什么 ? 在 什么 情况 下 应 该 使 用 生成 器 ? 
@ ”修饰 器 是 什么 ? 它 的 优点 在 哪些 方面 ? 
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我 们 在 饭店 聚餐 时 ， 多 个 人 同时 吃 一 道 菜 的 时 候 容易 发 生 争 抢 ， 例 如 上 了 一 个 好 菜 ， 两 
个 人 同时 夹 这 个 菜 ， 一 个 人 刚 伸 出 筷子 ， 结 果 伸 到 的 时 候 已 经 被 夹 走 了 …… 怎 么 办 呢 ? 此 时 
就 必须 等 一 个 人 夹 完 一 口 菜 之 后 ， 另 外 一 个 人 再 夹 菜 ， 也 就 是 说 资源 共享 会 发 生 冲 突 争 抢 ， 
这 就 是 多 线程 争 抢 资源 的 问题 。 

线程 是 一 个 单独 的 程序 流程 。 多 线程 是 指 一 个 程序 可 以 同时 运行 多 个 任务 ， 每 个 任务 由 
一 个 单独 的 线程 来 完成 。 如 果 程 序 被 设置 为 多 线程 ， 可 以 提高 程序 运行 的 效率 和 处 理 速度 。 
可 以 通过 控制 线程 来 控制 程序 的 运行 ， 如 操作 线程 的 阻塞 、 同 步 等 。 

本 章 的 主要 内 容 是 : 


@ 线程 的 概念 。 
@ 多 线程 机 制 。 
@ ”如 何 进行 多 线程 编程 。 


多 线程 的 慨 念 不 太 好 理解 ， 可 以 想 想 在 生活 中 当 资源 共享 出 现 冲突 的 时 候 怎么 办 ， 除 了 | 
上 面 说 的 夹 菜 ， 还 有 公交 车 上 的 座位 、 多 人 在 雨中 叫 出 租车 等 。 


了 口 . 1 线程 的 概念 


多 个 线程 可 以 同时 在 一 个 程序 中 运行 ， 并 且 每 一 个 线程 完成 不 同 的 任务 。 

传统 的 程序 设计 语言 同一 时 刻 只 能 执行 单 任务 操作 ， 效 率 非 常 低 。 比 如 ， 如 果 网 络 程序 
在 接收 数据 时 发 生 阻 塞 〈 管 道 被 堵 住 了 ) ， 只 能 等 到 程序 接收 数据 之 后 才能 继续 运行 。 随 着 
Intemet 的 飞速 发 展 ， 这 种 单 任务 运行 的 状况 越 来 越 不 被 接受 ， 如 果 网 络 接收 数据 阻塞 ， 后 台 
服务 程序 就 会 一 直 处 于 等 待 状态 而 不 能 继续 任何 操作 ， 这 种 阻塞 情况 经 常 发 生 ， 这 时 的 CPU 
资源 完全 处 于 闲置 状况 。 

多 线程 实现 后 台 服 务 程序 可 以 同时 处 理 多 个 任务 ， 并 不 发 生 阻塞 现象 。 多 线程 程序 设计 


最 大 的 特点 就 是 能 够 提高 程序 执行 效率 和 处 理 速度 。Python 程序 可 同时 并 行 运行 多 个 相对 独 
立 的 线程 。 例 如 ， 在 开发 一 个 Email 系统 时 ， 通 常 需要 创建 一 个 线程 来 接收 数据 ， 另 一 个 线 
程 发 送 数据 ， 即 使 发 送 线程 在 接收 数据 时 被 阻塞 ， 接 收 数据 线程 仍然 可 以 运行 。 

线程 (Thread) 是 CPU 分 配 资源 的 基本 单位 。 一 个 程序 开始 运行 ， 就 变 成 了 一 个 进程 ， 
而 一 个 进程 相当 于 一 个 或 者 多 个 线程 。 当 没有 多 线程 编程 时 ， 一 个 进程 也 是 一 个 主线 程 ， 当 
有 多 线程 编程 时 ， 一 个 进程 包含 多 个 线程 (包括 主线 程 》。 使 用 线程 可 以 实现 程序 的 并 发 。 


创建 多 线程 


Python 3.X 实现 多 线程 的 是 threading 模块 ， 使 用 它 可 以 创建 多 线程 程序 ， 并 且 在 多 线程 
间 进 行 同步 和 通信 。 因 为 是 一 个 模块 ， 所 以 使 用 前 必须 先导 入 : 

import threading 

Python 支持 两 种 创建 多 线程 的 方式 : 


@ ”通过 threading.ThreadO 创 建 。 
@ ”通过 继承 threading.Thread 类 创建 。 


10.2.1 通过 threading.Thread() 创 建 
Thread() 的 语法 如 下 : 


threading.Thread (group=None, target=None, name=None, args=(), kwargs={}, *, 
daemon=None) 


@ group: 必须 为 None， 与 ThreadGroup 类 相关 ， 一 般 不 使 用 。 

@ target: 线程 调用 的 对 象 ， 就 是 目标 函数 。 

@@ name: 为 线程 起 个 名 字 。 默 认 是 Thread-x，x 是 序号 ， 由 1 开始 ， 第 一 个 创建 的 线 

程 名 字 就 是 Thread-1。 

@。 args: 为 目标 函数 传递 实 参 ， 元 组 。 

@@ kwargs: 为 目标 函数 传递 关键 字 参 数 ， 字 典 。 

@ daemon: 用 来 设置 线程 是 否 随 主线 程 退 出 而 退出 。 

参数 虽然 很 多 ， 但 是 实际 常用 的 是 target 和 args， 可 以 用 例子 10.1 来 做 演示 。 
例子 10.1 Thread() 的 用 法 


01 import threading # 导 入 模块 

02 

03 def test (x,y): # 定 义 测试 函数 
04 for 诗 in range (xry): 

05 print (i) 
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06 threadl = threading.Thread (name='tl1',target=test,args=(1,10)) 
07 thread2 = threading.Thread (name='t2',target=test,args=(11,20)) 
08 threadl.start() ## 启 动 线程 1 

09 thread2.start() # 启 动 线程 2 


第 8~9 行 的 start0 函 数 用 来 启动 线程 。 如 果 按 照 先 执行 一 段 代码 再 执行 一 段 代 码 的 传统 


形式 ， 那 么 上 述 代码 应 该 是 先 输出 1~10 再 输出 11~20， 但 是 运行 程序 后 效果 却 如 图 10. 


不 。 


nm RESTART: D: /threadl. PY em 


图 10.1 运行 结果 1 
运行 一 次 ， 发 现 结果 变 了 见 图 10.2) 。 


mm RESTART: D:/threadl.py ====: 


图 10.2 运行 结果 2 


1 所 


这 是 因为 两 个 线程 会 并 发 运行 ， 所 以 结果 不 一 定 每 次 都 是 顺序 的 1~10， 这 是 根据 CPU 


给 两 个 线程 分 配 的 时 间 片 段 来 决定 的 。 多 运行 几 次 代码 ， 就 会 发 现 每 次 效果 都 有 所 不 同 。 


10.2.2 ”通过 继承 threading.Thread 类 创建 


threading.Thread 是 一 个 类 ， 可 以 继承 。 例 子 10.2 使 用 单 继承 的 方式 创建 一 个 属于 自 
类 。 
例子 10.2 单 继承 的 方式 


己 的 


01 import threading 


02 

03 class mythread(threading.Thread): # 继 承 threading.Thread 类 
04 def run(selLf) : 

05 or Tn Lande lr LO 
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06 
07 
08 
09 
10 
1 


print (i) 


threadl = mythread(); 
thread2 = mythread () 7 
threadl .start () 
thread2.start () 


第 3 行 自 定义 一 个 类 继承 自 threading.Thread， 然 后 重 写 父 类 的 run() 方 法 ， 会 在 线程 启动 
时 (执行 start0) 自动 执行 。 如 果 把 第 10~11 行 的 start0 换 为 ran0， 就 会 发 现 run0 仅 仅 是 被 


当 作 一 个 


普通 的 函数 使 用 。 只 有 在 线程 start 时 ， 它 才 是 多 线程 的 一 种 调用 函数 。 
Python 的 线程 没有 优先 级 ， 不 能 被 销毁 、 停 止 、 挂 起 ， 也 没有 恢复 、 中 断 ， 过 和 其他 可， 
础 开发 语言 有 所 不 同 。 


WwW © Wh 主线 程 


在 Python 中 ， 主 线程 是 第 一 个 启动 的 线程 。 我 们 需要 了 解 两 个 概念 : 


创建 线程 时 有 一 个 daemon 属性 ， 可 以 


父 线 程 : 如 果 线 程 A 中 启动 了 一 个 线程 B， 那 么 A 就 是 B 的 父 线程 。 
子 线程 : 如 果 线 程 A 中 启动 了 一 个 线程 B， 那 么 B 就 是 A 的 子 线程 。 
er 当 daemon 设置 为 False 时 ， 子 


线程 不 会 随 主线 程 退 出 而 退出 ， 主 线程 会 一 直 等 着 子 线程 执行 完 。 当 daemon 设置 为 True 
时 ， 当 主线 程 结 束 ， RE 


使 
@ 


daemon 属性 时 有 以 下 几 个 注意 事项 : 

daemon 属性 必须 在 start0 之 前 设置 ， 否 则 会 引发 RuntimeError 异常 。 

每 个 线程 都 有 daemon 属性 ， 可 以 显 式 设置 ， 也 可 以 不 设置 ( 取 默 认 值 None ) 。 

如 果子 线程 不 设置 daemon 属性 ， 就 取 当 前 线程 的 daemon 来 设置 。 子 线程 继承 子 线 
程 的 daemon 值 ， 作 用 和 设置 None 一 样 。 

从 主线 程 创 建 的 所 有 线程 不 设置 daemon 属性 ， 默 认 都 是 daemon=False。 


为 了 演示 主线 程 的 例子 ， 我 们 需要 学 习 一 个 time 模块 中 的 sleep0 函 数 〈 用 于 推迟 线程 的 
执行 ， 默 认 时 间 是 秒 ) 。 下 面 引 入 time 模块 来 演示 例子 10.3。 


例子 10.3 主线 程 的 例子 


01 
02 
03 


import time 


import threading 
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04 def test() : 


05 time.sleep (10) # 等 待 10 毫秒 
06 for i in range(10): 

07 DELNE(CL) 

08 


09 threadl= threading.Thread(target=test, daemon=False) 
10 threadl.start() 


12 ”print (' 主 线程 完成 了 ') 
上 述 代码 的 执行 结果 如 图 10.3 所 示 。 


= RESTART: D: \threadl.py = 


图 10.3 ”推迟 线程 的 执行 
当主 线程 完毕 时 ， 子 线程 依然 会 执行 ， 就 是 输出 0-9。 如 果 将 第 9 行 的 daemon=False 改 
为 daemon=True， 那 么 程序 应 该 只 输出 “主线 程 完 成 了 ”， 因 为 主线 程 完 成 后 会 强制 子 线程 
退出 ， 但 实际 效果 却 与 图 10.3 一 致 ， 这 又 是 为 什么 呢 ? 

原来 这 样 的 测试 并 不 适用 于 IDLE 环境 中 的 交互 模式 或 脚本 运行 模式 ， 因 为 在 该 环境 中 
的 主线 程 只 有 在 退出 Python IDLE 时 才 终 止 ， 所 以 本 例 要 换 一 种 测试 方法 来 测试 
daemon=True 的 情况 。 将 上 述 代码 保存 为 threadl.py， 然 后 打开 命令 行 ， 执 行 下 列 命令 : 


Python threadl.py 


效果 如 图 10.4 所 示 : 主线 程 退出 后 ， 子 线程 也 跟着 退出 了 ， 不 会 输出 0~9。 


画 远近 C\Windows\system32\cmd.exe es 口 x 


图 10.4 主线 程 和 子 线程 都 退出 
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多 


阻塞 线程 


线程 提供 了 一 个 方法 join0， 简 单 来 说 是 一 个 阻塞 线程 。 在 一 个 线程 中 调用 另 一 个 线程 


的 join0 方 法 ， 调 用 者 将 被 阻塞 ， 直 到 被 调用 线程 终止 。 其 语法 是 : 


jo. 


in (timeout=None) 


timeout 参数 指定 调用 者 等 待 多 久 ， 没 有 设置 时 就 一 直 等 待 被 调用 线程 结束 。 其 中 ， 一 个 


线程 可 以 被 join 多 次 。 例 子 10.4 可 以 演示 join0 的 用 法 。 
例子 10.4 join() 的 例子 

01 import time 

02 import threading 

03 

04 def test() : 

05 time.sleep(5) 

06 for i in range(10) : 

07 print (i) 

08 

09 threadl= threading.Thread(target=test) 

10 threadl.start() 

11 print(' 主 线程 完成 了 ') 

前 面 学 习 daemon 属性 时 已 经 提 到 ， 当 取 默 认 值 或 者 设置 为 False 时 ， 主 线程 退出 后 子 线 
程 依然 会 执行 。 因 为 子 线程 当时 设置 了 sleep0， 所 以 先 执行 了 主线 程 的 print 输出， 然后 才 输 
出 0~9。 

此 时 ， 如 果 在 第 10 行 后 面 添加 如 下 join0 方 法 : 


th 


这 样 在 


readl.join() 


输出 时 ， 主 线程 会 等 到 输出 0~9 后 再 执行 自己 的 print 输出 ， 效 果 如 图 10.5 所 示 。 


ss RESTERT™D- Wthreadl Py <== 


Hm 


< 


图 10.5 join0 方 法 应 用 


m5 


判断 线程 是 否 是 活动 的 


除了 前 面 介绍 的 join0， 其 实 threading.Thread 类 还 提供 了 很 多 方法 ， 主 要 方法 参见 表 10- 
1 所 示 。 


表 10-1 threading.Thread 类 的 方法 


名 称 | 说 明 
run( 用 以 表示 线程 活动 的 方法 


等 待 至 线程 中 目 


isAlive0 返回 线程 是 否 是 活动 的 
getNameO | 返回 线程 名 称 
设置 线程 名 称 


run()、start()、join0 在 前 面 都 介绍 过 ， 其 他 3 个 方法 可 以 用 例子 10.5 来 说 明 。 
例子 10.5 isAlive()、getName()、setName() 的 例子 


01 import time 


02 import threading 


03 

04 def test() : 

05 time.sleep(5) 

06 for i in range (10) : 
07 print (i) 

08 


09 threadl= threading.Thread(target=test) 

10 ”print ('1. 当 前 线程 是 否 是 活动 的 : ' ,thread1 .isAlive()) 

11 threadl .start() 

12 print('2. 当 前 线程 是 否 是 活动 的 : ' threadl1.isalive()) 

13 ”print(' 当 前 线程 ', thread]l .getName () ) 

14 threadl .join() 

TV 

16 print (' 线 程 完毕 ') 

在 第 10 行 时 ， 因 为 还 没有 使 用 start0 启 动 线程 ， 所 以 当前 线程 不 是 活动 的 状态 。 执 行 到 
第 12 行 时 就 输出 了 True。 第 13 行 获取 线程 的 名 称 ， 因 为 创建 线程 时 没有 使 用 name 属性 ， 
所 以 线程 的 默认 名 字 是 Thread-x 这 种 形式 。 本 例 效果 如 图 10.6 所 示 。 
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RESTART: D: Sthreadl.py =: 


四 lse 
2 True 
当 
0 
1 
2 
3 
4 
5 
四 
有 
8 
9 
线程 完毕 


图 10.6 ”线程 的 默认 名 字 
在 代码 运行 期 间 ， 也 可 以 使 用 setName0 更 改线 程 的 名 字 。 下 面 修改 代码 为 例子 10.6。 
例子 10.6 setName() 的 例子 


01 import time 


02 import threading 


03 

04 def test() : 

05 time.sleep(5) 

06 for i in range(10) : 
07 太志 直入 

08 


09 thread1l= threading.Thread(target=test) 

10 print("1. 当 前 线程 是 否 是 活动 的 : ', thread1 .isAlive()) 
11 threadl .start() 

12 ”print ('2. 当 前 线程 是 否 是 活动 的 : "vthreadl.isalive()) 
13 threadl .setName ("threadl1") 

14 print(' 当 前 线程 ,threadl .getName () ) 

15 threadl.join() 


17 print (" 线 程 完毕 ') 
在 第 13 行 代 码 中 设置 线程 名 称 为 threadl ， 整 个 程序 的 执行 效果 如 图 10.7 所 示 。 


==== RESTART: D: Nthreadl. py ============== 


1 动 的 : False 
2. 活动 的 : True 
E| 

0 

1 

2 

3 

4 

5 

6 

了 

8 

9 

线程 完毕 


图 10.7 ”修改 线程 的 名 字 
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10.6 线程 同步 


生活 中 经 常会 出 现 共享 资源 冲突 的 问题 ， 例 如 在 公共 汽车 上 只 有 一 个 空 座 ， 两 个 人 同时 
看 到 都 想 坐 时 ， 冲 突 产 生 了 ， 因 为 只 有 一 个 人 能 坐 在 这 个 座位 上 。 

Python 应 用 程序 中 的 多 线程 可 以 共享 资源 ， 如 文件 、 数 据 库 、 内 存 等 。 当 线程 以 并 发 模 
式 访问 共享 数据 时 ， 共 享 数据 可 能 会 发 生 冲 突 。Python 引入 线程 同步 的 概念 ， 以 实现 共享 数 
据 的 一 致 性 。 线 程 同步 机 制 让 多 个 线程 有 序 地 访问 共享 资源 ， 而 不 是 同时 操作 共享 资源 。 


10.6.1 同步 的 概念 

在 线程 异步 模式 的 情况 下 ， 同 一 时 刻 有 一 个 线程 在 修改 共享 数据 、 另 一 个 线程 在 读 取 
共享 数据 ， 当 修改 共享 数据 的 线程 没有 处 理 完毕 时 读 取 数 据 的 线程 肯定 会 得 到 错误 的 结 
果 。 如 果 采 用 多 线程 的 同步 控制 机 制 ， 当 处 理 共享 数据 的 线程 完成 处 理 数据 之 后 ， 读 取 线 
程 读 取 数 据 。 

可 以 通过 车 站 出 售 车 票 的 例子 来 理解 线程 同步 的 概念 。 比 如 说 武汉 到 北京 的 车 票 ， 在 武 
昌 、 汉 口 、 武 汉 以 及 市 内 车 票 代 理 点 都 可 以 出 售 武汉 到 北京 的 车 票 。 我 们 将 每 一 个 站 点 看 成 
一 个 线程 。 假 设 有 两 个 站 点 ， 线 程 Threadl 和 线程 Thread2 都 可 以 出 售 火车 票 ， 但 是 这 个 出 
过 程 中 会 出 现 数据 与 时 间 信 息 不 一 致 的 情况 。 线 程 Threadl 查询 系统 数据 库 ， 发 现 某 张 火 
票 Ticket 可 以 出 售 ， 所 以 准备 出 售 此 票 ， 此 时 线程 Thread2 也 在 数据 库 中 查询 存 票 ， 发 现 
- 面 的 火车 票 Ticket 可 以 出 售 ， 所 以 线程 Thread2 将 这 张 火车 票 Ticket 售 出 ， 这 时 当 线 程 
Threadl 执行 时 ， 它 又 卖 出 同样 的 票 Ticket。 这 样 就 出 现 了 一 张 车 票 卖 出 两 次 的 错误 以 前 铁 
路 系统 确实 发 生 过 这 类 错误 ) ， 这 是 一 个 典型 的 由 于 数据 不 同步 而 导致 的 错误 。 

基本 每 种 语言 都 会 提供 方案 来 解决 这 种 因 同步 导致 的 错误 ， 最 常用 的 方案 就 是 “ 锁 ”， 
简单 来 说 就 是 锁 住 线程 ， 只 允许 一 个 线程 操作 ， 其 他 线程 排队 等 待 ， 等 当前 线程 操作 完毕 后 
再 按 排队 顺序 逐个 操作 。 


攻破 


10.6.2 Python 中 的 锁 

Python 的 threading 模块 提供 了 RLock 锁 (可 重 入 锁 ) 解决 方案 。 某 一 时 间 只 能 让 一 个 
线程 操作 的 语句 放 到 RLock 的 acquire0 方 法 和 release(0 方 法 之 间 ， 即 acquire 相当 于 给 RLock 
上 锁 、release 相当 于 解锁 。 例 子 10.7 演示 锁 的 使 用 。 


例子 10.7 锁 的 演示 


01 import threading 


02 

03 class mythread(threading.Thread): 

04 def run(self) : 

05 global x # 声 明 一 个 全 局 变量 
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06 lock.acquire() # 上 和 锁 


07 x += 10 

08 print('%s:%d'%$(self.name,x)) 

09 lock.release() ## 解 锁 

10 

11 x=0 设置 全 局 变量 初始 值 
12 lock = threading.RLock() ## 创 建 可 重 入 锁 


13 Tistl = {1 

14 for i in range(5): 

15 listl.append (mythread() ) ## 创 建 5 个 线程 ， 并 把 它们 放 到 一 个 列表 中 
Lo or Ln ListLs 


7 i.start() # 开 局 列表 中 的 所 有 线程 


代码 首先 定义 了 一 个 类 mythread， 继 承 自 threading.Thread， 然 后 重 写 父 类 的 run0 方 法 ， 
当 线程 启动 时 自动 执行 该 方法 。 第 8 行 输出 线程 名 称 和 x 的 值 。x 是 全 局 变量 ， 用 global 定 
义 ， 作 用 域 是 整个 代码 执行 期 间 ， 在 第 11 行 设置 了 x 的 初始 值 。 

第 14~15 行使 用 for...in 语句 创建 5 个 线程 ， 第 17 行 启动 这 5 个 线程 ， 设 置 x 的 值 并 输 
出 。 为 了 保证 输出 正确 ( 读 取 x 的 值 时 不 产生 错误 ) ， 使 用 了 lock.acquire0 和 lock.release()， 
将 设置 x 值 和 读 取 x 值 的 语句 锁 起 来 ， 以 保证 线程 的 同步 ， 也 就 是 数据 的 正确 性 。 本 例 效 果 
如 图 10.8 所 示 。 


图 10.8 ”线程 的 同步 


10.6.3 ”Python 中 的 条 件 锁 

Python 的 threading 提供 了 一 个 方法 Condition0， 一 般 称 为 Python 中 的 条 件 变量 。 简 单 
来 说 ， 这 个 条 件 变量 必须 与 一 个 锁 关 联 ， 所 以 也 可 以 称 为 条 件 锁 ， 一 般 用 于 比较 复杂 的 同 
步 。 比 如 ， 一 个 线程 在 上 锁 后 、 解 锁 前 ， 因 为 某 一 条 件 一 直 阻塞 着 ， 所 以 就 一 直 解 不 开锁 ， 
其 他 线程 也 会 因为 一 直 获 取 不 了 锁 而 被 迫 阻塞 着 ， 从 而 导致 “ 死 锁 ”现象 。 这 种 情况 下 ， 变 
量 锁 可 以 让 该 线程 先 解锁 ， 然 后 阻塞 着 ， 等 待 条 件 满足 了 再 重新 唤醒 并 获取 锁 (上 锁 ) 。 这 
样 就 不 会 因为 一 个 线程 有 问题 而 影响 其 他 线程 了 。 变 量 锁 的 使 用 方法 一 般 是 : 


con = threading.Condition() 


的 一 个 现象 。 


条 件 锁 常用 的 方法 可 参见 表 10-2。 
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表 10-2 条件 锁 常用 的 方法 


名 称 说 明 

acquire([timeout) 调用 关联 锁 的 相应 方法 

TeleaseO 解锁 

waitO 使 线程 进入 Condition 的 等 待 池 等 待 通知 ， 并 释放 锁 。 使 用 前 线程 必须 已 获 
得 锁定 ， 否 则 将 抛 出 异常 

notifyO 从 等 竺 池 抗 先 一 个 线程 并 通知 ， 收 到 通知 的 线程 将 自动 调用 acquire0 尝 试 获 
得 锁定 (进入 锁定 池 )〉; 其 他 线程 仍然 在 等 待 池 中 。 调 用 这 个 方法 不 会 释放 
锁定 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 将 抛 出 异常 

notifyAllO 通知 等 待 池 中 所 有 的 线程 ， 这 些 线程 都 将 进入 锁定 池 尝 试 获得 锁定 。 调 用 这 
个 方法 不 会 释放 锁定 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 将 抛 出 异常 


条 件 锁 的 原理 跟 设计 


-模式 中 的 生产 者 /消费 者 (Producer/Consumer) 模式 类 似 。 了 解 了 这 
个 模式 ， 也 就 了 解 了 条 件 锁 。 顾 名 思 义 ， 生 产 者 是 一 段 用 于 生产 的 内 容 ， 生 产 的 成 果 供 消费 
者 消费 ， 这 中 间 涉 及 一 个 缓存 池 【〈 用 来 存储 数据 ) ， 一 般 称 为 仓库 。 生 产 者 、 人 仓库、 消费 者 
的 关系 如 下 : 


@ ”生产 者 仅仅 在 仓库 未 满 时 生产 ， 仓 满 则 停止 生产 。 
@ ”消费 者 仅仅 在 仓库 有 产品 时 才能 消费 ， 仓 空 则 等 待 。 

@ 当 消 费 者 发 现 仓 库 没有 产品 可 消费 时 会 通知 生产 者 生产 。 

@ ”生产 者 在 生产 出 可 消费 产品 时 ， 应 该 通知 等 待 的 消费 者 去 消费 。 


在 例子 10.8 中 ， 我 们 设计 一 个 产品 ， 用 一 个 生产 者 类 生产 产品 (产品 数量 +1)， 当 产品 


数量 到 达 10 时 ， 停 止 生产 


例子 10.8 join() 的 例子 


=， 再 用 一 个 消费 者 类 来 消费 产品 〈 产 品 数量 -1) 。 


01 import threading 


02 import time 
03 
04 products = [] 


05 condition = threading.Condition() 


06 

07 class ConsumeLr (threading.-Thread) : 

08 def consume (self): 

09 global condition 

10 global products 

a 

12 condition.acquire() 

es if lenl(products) == 0: 

14 condition.wait() 

15 print ("消费 者 提醒 : 没有 产品 去 消费 了 ") 
16 products.pop () 

i print ("消费 者 提醒 : 消费 1 个 产品 ") 
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18 print ("消费 者 提醒 : 还 能 消费 的 产品 数 为 "\ 


下 号 + Str (LIen(Products) )) 

20 condition-notify() # 通 知 

21 condition.release() # 解 锁 

22 def run'(self): 

2 for i in range(0, 20): 

24 time.sleep (4) # 消 费 一 个 产品 的 时 间 
25 self.consume () 

26 

27 class Producer(threading.Thread): 

28 def produce (self): 

29 global condition 

30 global products 

Ei 

32 condition.acquire() # 设 置 条 件 锁 
33 if lenl(products) == 10: 

34 condition.wait () # 等 待 

35 print ("生产 者 提醒 : 生产 的 产品 数 为 "\ 

36 + str(lenl(products))) 

a7 print ("生产 者 提醒 : 停止 生产 ! ") 

38 products.append (1) 

39 print ("生产 者 提醒 :产品 总 数 为 "\ 

40 + strl(lenl(products))) 

41 condition.notify () # 通 知 

42 condition.release() # 解 锁 

43 

44 def run(self) : 

45 for i in range(0, 20): 

46 time.sleep (1) # 生 产 一 个 产品 的 时 间 
47 self.produce () 

48 

49 producer = Producer () # 生 产 者 实例 
50 consumer = Consumer () # 消 费 者 实例 


51 producer.start() 
52 consumer.start() 
53 producer.join() # 阻 寨 线 程 
54 _ consumer .join () # 阻 寨 线 程 


上 述 代码 用 time.sleep0 来 控制 生产 和 消费 的 时 间 ，1 秒 生产 一 个 产品 ，4 秒 消费 一 个 产 
品 。 当 产品 生产 的 数量 到 达 我 们 设计 的 上 限 10 时 就 停止 生产 ， 并 调用 wait 等 待 线程 通知 ; 
可 消费 的 产品 数量 为 0 时 就 停止 消费 ， 并 调用 wait 等 待 线程 通知 。 

本 例 部 分 结果 如 下 : 

生产 者 提醒 :产品 总 数 为 1 
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生产 者 提醒 : 
生产 者 提醒 : 
消费 者 提醒 : 
消费 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
消费 者 提醒 : 
消费 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
消费 者 提醒 : 
消费 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
消费 者 提醒 : 
消费 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
消费 者 提醒 : 
消费 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 
生产 者 提醒 : 


消费 者 提醒 
消费 者 提醒 
生产 者 提醒 


品 总 数 为 2 
产品 总 数 为 3 
消费 1 个 产品 
还 能 消费 的 产品 数 为 2 
产品 总 数 为 3 
产品 总 数 为 4 
产品 总 数 为 5 
产品 总 数 为 6 
消费 1 个 产品 
还 能 消费 的 产品 数 为 5 
产品 总 数 为 6 
产品 总 数 为 7 
产品 总 数 为 8 
产品 总 数 为 9 
消费 1 个 产品 
还 能 消费 的 产品 数 为 8 
产品 总 数 为 9 
产品 总 数 为 10 
消费 1 个 产品 
还 能 消费 的 产品 数 为 9 
生产 的 产品 数 为 9 
停止 生产 ! 
产品 总 数 为 10 
消费 1 个 产品 
还 能 消费 的 产品 数 为 9 
生产 的 产品 数 为 9 
停止 生产 ! 
产品 总 数 为 10 
: 消费 1 个 产品 
: 还 能 消费 的 产品 数 为 9 
: 生产 的 产品 数 为 9 


4 ”本 章 小 结 


在 处 理 大批 流 程 都 类 似 的 程序 时 ， 使 用 多 线程 可 以 有 效 地 节省 时 间 ， 耗 费 的 不 过 是 一 些 
计算 机 资源 ， 是 典型 的 拿 计算 资源 换 时 间 。 以 目前 计算 机 的 性 能 来 看 ， 大 多 都 是 性 能 过 剩 
的 ， 利 用 剩余 的 计算 资源 ， 节 省 时 间 是 非常 合算 的 。 

使 用 多 线程 (多 进程 》 时 ， 需 要 注意 的 是 锁 。 使 用 锁 来 保护 共享 的 资源 、 数 据 ， 避 免 被 


其 他 的 线程 (进程) 破坏。 一般 使 
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互 斥 锁 就 可 以 应 付 大 多 数 情 况 了 。 


第 11 章 
< 文件 与 目 东 > 


os 模块 和 shutil 模块 是 Python 处 理 文件 /目录 的 主要 方式 。 特 别 是 os 模块 ， 在 写 代码 时 
经 常 性 会 用 到 ， 该 模块 提供 了 一 种 使 用 操作 系统 相关 功能 的 便捷 方式 。shutil 模块 是 一 种 高 级 
的 文件 /目录 操作 工具 ， 强 大 之 处 在 于 对 文件 的 复制 及 删除 操作 。 
本 章 的 主要 内 容 是 : 


@ os 模块: 通过 学 习 os 模块 相关 函数 ， 掌 握 文 件 的 基本 处 理 。 
@@ shutil 模块 : 通过 学 习 shutil 模块 相关 函数 ， 掌 握 文 件 和 目录 的 复制 、 移 动 、 删 除 、 
压缩 、 解 压 等 高 级 处 理 。 


文件 的 处 理 


os 模块 提供 一 些 便捷 功能 使 用 操作 系统 ， 比 如 读 取 某 目录 下 的 文件 、 在 命令 行 查看 某 路 
径 下 文件 的 所 有 内 容 等 。 在 本 节 我 们 将 依次 对 os 模块 下 常用 的 函数 或 属性 等 进行 讲解 。 


11.1.1 获取 系统 类 型 

对 代码 进行 兼容 性 开发 以 适应 不 同 操作 系统 时 ， 通 过 系统 类 型 进行 判断 可 以 轻松 地 解 
决 。 

>>> import os 


>>> os .narme 


nt' 


mt 名 称 依赖 于 操作 系统 ，nt 代表 Windows、posix 代表 Linux。 有 如 下 名 称 已 经 注册 在 os 
模块 中 : posix'、'mt'、'ce'、Jjava'。 因 此 可 以 轻易 地 根据 os.name 来 判断 操作 系统 。 
>>> if os.name == "nt': 
print (' 你 的 操作 系统 是 Windows!') 


elif os .name =="'posix"': 


Print (' 你 的 操作 系统 是 Linux') 
e136 


print (' 你 的 操作 系统 是 其 他 ' ) 


你 的 操作 系统 是 Windows! 
如 果 想 知道 操作 系统 更 详细 的 信息 ， 可 以 使 用 sys.platform。 


>>> sys.platform 


"win32" 


11.1.2 ”获取 系统 环境 
对 系统 环境 变量 进行 相关 设置 时 常常 调用 模块 environ 属性 ， 如 例子 11.1 所 示 。 
例子 11.1 environ 属性 


>>> import os 


>>> os .enViron 

environ({'ALLUSERSPROFILE': 'C:\\ProgramData', 'APPDATA': 
'C:\\Users\\tina\\AppData\\Roaming', 'COMMONPROGRAMFILES': 'C:\\Program 
Files\\Common Files', 'COMMONPROGRAMFILES (X86)': 'C:\\Program Files 
(x86) \\Common Files', 'COMMONPROGRAMW6432': 'C:\\Program Files\\Common Files', 
'COMPUTERNAME': 'DESKTOP-B97M55J', 'COMSPEC': 'C:\\WINDOWS\\system32\\cmd.exe', 
'DRIVERDATA': 'C:\\Windows\\System32\\Drivers\\DriverData', 
'FPS_ BROWSER APP _ PROFILE STRING': 'Internet Explorer', 
'FPS_ BROWSER USER PROFILE STRING': 'Default', 'HOME': 'C:\\Users\\tina', 
'HOMEDRIVE': 'C:', 'HOMEPATH': '\\Users\\tina', 'LOCALAPPDATA': 
'C:\\Users\\tina\\AppData\\Local', 'LOGONSERVER': '\\\\DESKTOP-B97M55J', 
'NUMBER_ OF_ PROCESSORS': '2', 'ONEDRIVE': 'C:\\Users\\tina\\OneDrive', 'OS': 
"Windows_NT'， 'PATH': 
1'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS\\Sy 
stem32\\WindowsPowerShell\\v1l.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\scripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 
grams\\Python\\Python37\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm; ', 'PRTHEXT' : 
' .COM; .EXE; .BAT; .CMD; .VBS; .VBE; .JS; .JSE; .WSF; .WSH; .MSC', 
'PROCESSOR ARCHITECTURE': 'AMD64', 'PROCESSOR IDENTIFIER': 'AMD64 Family 16 
Model 6 Stepping 2, AuthenticAMD', "PROCESSOR LEVEL': "16'v 
'PROCESSOR REVISION': '0602', 'PROGRAMDATA': 'C: \\ProgramData', 'PROGRAMFILES': 
'C:\\Program Files', 'PROGRAMFILES (X86)': 'C:\\Program Files (x86)', 
'PROGRAMW6432': 'C:\\Program Files', 'PSMODULEPATH': 'C:\\Program 
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Files\\WindowsPowerShell\\Modules;C:\\WINDOWS\\system32\\WindowsPowerSshell\\vl 
.0\\Modules', ‘'PUBLIC': 'C:\\Users\\Public', 'SESSIONNAME': 'Console'y 
BYSTEMDRIVE"S Ce "BYSTEMROOTs “CG:\N\WINDOWSY, “TEMPY: 
'C:\\Users\\tina\\AppData\\Local\\Temp', 'TMP': 
'C:\\Users\\tina\\AppData\\Local\\Temp', 'USERDOMAIN': 'DESKTOP-B97M55J', 
'USERDOMAIN ROAMINGPROFILE': ‘'DESKTOP-B97M55J', 'USERNAME': ‘tina', 
'USERPROFILE': 'C:\\Users\\tina', 'WINDIR': 'C:\\WINDOWS'}) 


>>> env = os.environ 


>>> for e in env: 
人 Print(e) 


ALLUSERSPROFILE 

APPDATA 

COMMONPROGRAMFILES 
COMMONPROGRAMFILES (X86) 

// 省 略 部 分 代码 

WINDIR 

WINDOWS_TRRCING_FLRAGS 
WINDOWS_TRACING LOGFILE 
_DFX_INSTALL UNSIGNED DRIVER 


>>> env['PATH'] 

1'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS 
\\System32\\WindowsPowerShell\\v1.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\scripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 
grams\\Python\\Python37\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm;"' 


从 如 上 代码 可 以 看 出 ，os.environ 返回 的 系统 环境 变量 是 字典 的 形式 。 如 果 要 获取 具体 环 
境 变 量 的 属性 值 ， 既 可 以 直接 索引 输出 ， 也 可 以 使 用 方法 getenv()， 比 如 env[PATH']: 


>>> os.getenv('PATH') 

'C:\\WINDOWS\\system32;C:\\WINDOWS;C:\\WINDOWS\\System32\\Wbem;C:\\WINDOWS 
\\System32\\WindowsPowerShell\\v1l.0\\;C:\\Program 
Files\\nodejs\\;C:\\WINDOWS\\System32\\OpenssH\\;C:\\Users\\tina\\AppData\\Loc 
al\\Programs\\Python\\Python37\\Scripts\\;C:\\Users\\tina\\AppData\\Local\\Pro 


grams\\Python\\Python37\\;C:\\Users\\tina\\AppData\\Local\\Microsoft\\WindowsA 
pps;C:\\Users\\tina\\AppData\\Roaming\\npm;' 


11.1.3 ”执行 系统 命令 
使 用 os 模块 system0 方 法 就 可 以 执行 shell 命令 ， 正 常 执行 会 返回 0。 使 用 格式 是 
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os.system("bash command")。 演 示 如 例子 11.2 所 示 。 
例子 11.2 执行 系统 命令 


>>> os.system('ping www.baidu.com ') 


正在 Ping www.ba 
来 自 39.108.166. 
来 自 39.108.166. 
来 自 39.108.166. 
来 自 39.108.166. 


idu.com [39.108.166.54] 具有 32 字 节 的 数据 : 
54 的 回复 : 字 节 =32 时 间 =38ms TTL=48 
54 的 回复 : 字 节 =32 时 间 =80ms TTL=48 
54 的 回复 : 字 节 =32 时 间 =41lms TTL=48 
54 的 回复 : 字 节 =32 时 间 =72ms TTL=48 


39.108.166.54 的 Ping 统计 信息 : 


数据 包 : 已 发 送 
往返 行程 的 估计 时 间 

最 短 = 38ms， 
0 


= 4， 已 接收 = 4， 丢 失 = 0 (0% 丢失 )， 
(以 毫秒 为 单位 ) : 
最 长 = 80ms， 平 均 = 57ms 


>>> os.popen('ping www.baidu.com') .read() 
'\n 正 在 Ping www.baidu.com [39.108.166.54] 具有 32 字 节 的 数据 : \n 来 自 39 
.108.166.54 的 回复 : 字 节 =32 时 间 =46ms TTL=48\n 来自 39.108.166.54 的 回复 : 字 节 =32 
时 间 =50ms TTL=48\n 来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =75ms TTL=48\n 来 自 39 . 
108.166.54 的 回复 : 字 节 =32 时 间 =74ms TTL=48\n\n39.108.166.54 的 Ping 统计 信 


息 :\n 


数据 包 : 已 发 送 = 4， 已 接收 = 4， 丢 失 = 0 (0% 丢失 ) ，\n 往返 行程 的 估计 时 间 (以 


毫秒 为 单位 ) : \n 


最 短 = 46ms， 最 长 = 75ms, 平均 = 6lms\n' 


在 非 控制 台 编写 时 ，systemO 只 会 调用 系统 命令 而 不 会 执行 ， 执 行 结果 可 通过 pope 
数 返回 fle 对象 进行 读 取 获得 。 


11.1.4 ”操作 目录 及 文件 


使 用 os 模块 操作 


目录 和 文件 是 Python 开发 最 为 常见 的 功能 之 一 。 


进行 Python 开发 尤为 
1. 获 取 当 前 目录 


使 用 os.getcwd0 函 数 获取 当前 目录 路 径 ， 即 当前 Python 脚本 了 


有 参数 。 


>>> import os 


>>> os.getcwd() 
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要 。 


熟练 掌握 它 对 了 


n0 函 


FF 我们 


[ 作 的 目录 路 径 ， 该 函数 没 


'C:\\Users\\xxxx\\AppData\\Local\\Programs\\Python\\Python37" 


2 更改 目录 
使 用 os.chdir0 函 数 更 改 当前 脚本 目录 ， 相 当 于 shell 命令 中 的 cd， 从 函数 名 很 容易 理解 


它 需 要 目标 目录 的 路 径 作 为 参数 ， 使 用 方法 为 os.chdir(' 目 标 路 径 ') 。 代 码 接 上 后 面 不 做 
说 明 ) : 


52, 05.chadir("E:™) 


>>> os.getcwd() 

EN 

从 代码 可 以 看 出 ， 目 录 由 当前 工作 目录 转 到 “E:\”。 

3 .列举 目录 下 的 所 有 文件 

os.listdir(pathb) 函 数 可 获得 path 下 的 所 有 文件 ， 返 回 的 是 列表 : 


>>> os.listdir('E:\\testdir') 


['index.html', 'one.txt', 'os.py'] 


4. 创 建 及 删除 目录 
使 用 os.mkdir(path) 函 数 可 创建 单个 目录 ， 使 用 os.makedirs(path) 函 数 可 创建 多 级 目录 。 


使 用 os.mdir0 可 删除 单 级 空 目录 ， 若 目录 不 为 空 则 无 法 删除 ， 参 数 为 需 删 除 的 目录 名 称 。 使 
os.IemovedirsO 可 删除 多 级 空 目录 ， 参 数 为 需 删除 的 目录 名 称 或 路 径 。 例 子 11.3 演示 如 何 

创建 及 删除 目录 。 

例子 11.3 ”创建 及 删除 目录 


EGGSY EL 


>>> os.makedirs('./dirl/dir2/dir3') 


>>> os.1listdir("'dirl') 
[GE221 


>>> os.rmdir('dirl') 


OSError Traceback (most recent call last) 


<ipython-input-17-fc3e3e614220> in <module>() 
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Om Tm 
OsError: [WinError 145] 目录 不 是 空 的 。: 'dirl' 
>>> os.removedirs('./dirl/dir2/dir3') 


>>> os.11stdir(t .dirl') 


FileNotFoundError Traceback (most recent call last) 
<ipython-input-19-9abfbda7d558> in <module>() 


----> os.listdir('./dirl') 
FileNotFoundError: [WinError 3] 系统 找 不 到 指定 的 路 径 。: ' ./dirl' 
>>> os.mkdir('dirl') 


>>> os.rmdir('dirl') 

5. 重 命名 目录 或 文件 

使 用 os.rename0 〇 函数 可 重 命名 目录 或 文件 ， 使 用 方法 为 : 
os .rename ("文件 或 者 目录 名 称 "," 要 修改 成 的 文件 或 目录 名 称 ") 
例如 : 


>>> os.chdir('e:\\testdir') 


>>> os.getcwd() 
'E:\\testdir"' 


>>> os.1istdir('.') 


['index.html', '‘'one.txt', 'os.py'] 
>>> os.rename('one.txt','two.txt"') 


SS Oa listdir(.") 


ee OSBy re "two txtel] 
6. 获 取 绝 对 路 径 
使 用 os.path.abspath(path) 可 获取 path 的 绝对 路 径 ， 一 般 情 况 下 此 处 指 相对 路 径 。 


>>> os.path.abspath('.') 
"EN\\testair" 
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H 
山 


| 


>>> os.path.abspath('..') 
EN 


7. 路 径 分 解 与 组 合 


通过 os.path.split(path) 函 数 将 路 径 分 解 为 (文件 夹 ,文件 名 )， 返 回 的 是 一 个 二 元 组 。 可 以 看 


前 的 path 将 被 删除 。 具 体 如 例子 11.4 所 示 。 
例子 11.4 ”路 径 分 解 与 组 合 


例 


>>> os.path.split('D:\\flaskProject\\mergePic\\runserver.py') 


('D:\\flaskProject\\mergePic', 'runserver.py') 


>>> os.path.split('D:\\flaskProject\\mergePic\\') 
('D:\\flaskProject\\mergePic', '') 


>>> os.path.split('D:\\flaskProject\\mergePic') 
('D:\\flaskProject', 'mergePic') 


>>> os.path.join('D:\\flaskProject', 'mergePic') 
'D:\\flaskProject\\mergePic' 


>>> os.path.join('D:\\flaskProject', 'mergePic', 'hello.py') 
'D:\\flaskProject\\mergePic\\hello.py' 


8. 返 回 目录 和 文件 名 


出 ， 若 路 径 字 符 串 最 后 一 个 字符 是 \， 则 只 有 文件 夹 部 分 有 值 ， 若 路 径 字 符 串 中 均 无 \， 则 只 
有 文件 名 部 分 有 值 。 若 路 径 字符 串 有 \ 且 不 在 最 后 ， 则 文件 夹 和 文件 名 均 有 值 ， 且 返回 的 文件 
结果 不 包含 \。os.pathjoin(pathl,path2,…) 函 数 将 path 进行 组 合 ， 若 其 中 有 绝对 路 径 ， 则 之 


使 用 os.path.dimame(path) 函 数 可 获取 path 中 的 文件 夹 部 分 ， 并 且 结果 不 包含 “”， 使 


os.path.basename(path) 函 数 可 获取 path 中 的 文件 名 ， 可 参考 例子 11.5。 
子 11.5 返回 目录 和 文件 名 


>>> os.path.dirname ('D:\\flaskProject\\mergePic\\hello.py') 
'D:\\flaskProject\\mergePic"' 


>>> os.path.dirname('.') 


>>> os.path.dirname ('D:\\flaskProject\\mergePic\\') 
'D:\\flaskProject\\mergePic"' 


>>> os.path.dirname('D:\\flaskProject\\mergePic') 
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'D:\\flaskProject" 


>>> os .path.basename ('D:\\flaskProject\\mergePic\\hello.py') 
"hello.PY'" 


>>> os.path.basename('.') 


>>> os.path.basename ('D:\\flaskProject\\mergePic\\') 


>>> os.path.basename ('D:\\flaskProject\\mergePic') 


"mergePic' 


9 .判断 及 获取 文件 或 文件 夹 信息 


使 用 函数 os.path.existsGpatb) 可 判断 文件 或 文件 夹 是 否 存在 ， 如 果 存 在 就 返回 True， 和 否则 
返回 False。 通 过 函数 ospathisfile(patb) 可 判断 路 径 是 否 为 一 个 文件 。 通 过 函数 
os.path.isdir(pathb) 可 判断 路 径 是 否 为 一 个 目录 。 通 过 函数 os.path.isabs(pathb) 可 判断 路 径 是 否 是 
绝对 路 径 。 通 过 函数 os.path.getsize(path) 可 获取 文件 或 文件 夹 大 小 。 通 过 函数 
os.path.getctime(path) 可 获取 文件 或 文件 夹 的 创建 时 间 、os.path.getatime(path) 可 获取 文件 或 文 
件 夹 的 最 后 访问 时 间 、os.path.getmtime(path) 可 获取 文件 或 文件 夹 的 最 后 修改 时 间 。 这 些 获取 
时 间 的 函数 返回 值 都 是 从 新 纪元 到 代码 执行 时 的 秒 数 。 具 体 的 演示 参见 例子 11.6。 


ee et 1970 年 1 月 1 日 0 时 0 分 0 秒 起 到 现在 的 总 秒 数 ， 不 包括 同 
。 正 值 表示 1970 年 以 后 ， 负 值 表示 1970 年 以 前 。 


例子 11.6 判断 及 获取 文件 或 文件 夹 信息 


>>> os.listdir('D:\\flaskProject\\mergePic') 
['.git', 
'.gitignore', 
i 
"PicMerge'yv 
'requirements.txt', 
'runserver.py', 


'uploadr'] 


>>> os.path.exists('D:\\flaskProject\\mergePic\runserver.py') 


False 


>>> os.path.exists('D:\\flaskProject\\mergePic\\runserver.py') 
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时 于 和 


>>> os.path.exists('D:\\flaskProject\\mergePic\\Runserver.py') 


True 


>>> os.path.exists('D:\\flaskProject\\mergePic\\RunseRveR.PY') 


True 


>>> os.path.exists('D:\\flaskProject\\mergePic\\Runserverl.py') 
False 


>>> os.path.exists('D:\\flaskProject\\mergePic\\') 
True 


>>> os.path.exists('D:\\flaskProject\\mergePic') 
True 


>>> os.path.isfile('D:\\flaskProject\\mergePic\runserver.py') 
False 


>>> os.path.isfile('D:\\flaskProject\\mergePic\\runserver.py') 


True 


>>> os.path.isfile('D:\\flaskProject\\mergePic') 
False 


>>> os.path.isdir('D:\\flaskProject\\mergePic\\') 
True 


>>> os.path.isdir('D:\\flaskProject\\mergePic') 
True 


>>> os.path.isabs('D:\\flaskProject\\mergePic\\runserver.py') 


True 


>>> os.path.getsize('D:\\flaskProject\\mergePic\\runserver.py') 
538 


>>> os.path.getsize('D:\\flaskProject\\mergePic') 
4096 


>>> os.path.getctime('D:\\flaskProject\\mergePic\\runserver.py') 
1487857915.8891466 
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>>> os.path.getatime ('D:\\flaskProject\\mergePic\\runserver.py') 
1487857915.8891466 


>>> os .path.getmtime ('D:\\flaskProject\\mergePic\\runserver.py') 
1487584624.342 


10. 表现 形式 参数 
在 os 模块 中 定义 了 一 些 文件 、 路 径 在 不 同 操作 系统 中 的 表现 形式 参数 。 
>>> os.sep 


TA 


>>> oSextsep 


>>> os.pathsep 


六 
; 


>>> os.linesep 


NE 


上 面 介绍 的 只 是 os 模块 中 较为 常用 的 方法 或 属性 ， 如 果 想 了 解 更 多 ， 可 查看 源码 或 文 
档 。 接 下 来 介绍 shutil 模块 ， 也 就 是 目录 的 处 理 。 


文件 和 目录 的 高 级 处 理 


相 比 os 模块 ，shutil 模块 用 于 文件 和 目录 的 高 级 处 理 ， 提 供 了 支持 文件 复制 、 移 动 、 删 
除 、 压 缩 、 解 压 等 功能 。 


11.2.1 复制 文件 
shutil 模块 的 主要 作用 是 复制 文件 。 注 意 ， 在 Windows 控制 台 上 演示 这 些 函数 的 使 用 方 
法 容易 涉及 权限 的 问题 ， 但 在 Linux 系统 操作 上 可 以 更 为 直观 地 查看 效果 。 


1. 一 种 覆盖 形式 的 复制 


shutil 提供 了 一 个 copyfileobj(filel, file2) 函 数 ， 功 能 是 将 filel 的 内 容 复制 到 fle2， 而 且 
会 覆盖 file2 的 内 容 。 参 数 flel 、file2 表示 打开 的 文件 对 象 ， 并 且 file2 必须 是 可 写 入 的 。 


>>> import shutil 


>>> fl = open('filel.txt',encoding='utf-8') 
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>>> f2 = open('file2.txt','w',encoding='utf-8') 
>>> shutil.copyfileobj (fl,E2) 


2. 另 一 种 覆盖 形式 的 复制 


shutil 还 提供 一 个 函数 copyfile(filel, file2)， 无 须 打 开 文 件 ， 直 接 用 文件 名 进 
该 函数 源码 可 知 它 调用 shutil.copyfileobj0 函 数 ， 返 回 file2: 


Al 


覆 


性 


。 从 


>>> Shitil copyfile(" Fil1el. txt", file3stxt") 
ELle3sEaE, 


3. 文件 权限 的 复制 

shutil 提供 了 一 个 函数 copymode(filel, file2)， 仅 复制 文件 权限 ， 不 更 改 文件 内 容 、 组 和 
用 户 ， 无 返回 对 象 。 

>>> shutil.copymode('filel.txt', 'file3.txt"') 

4. 文件 状态 的 复制 


shutil 的 copystat(filel，file2) 用 于 复制 文件 的 所 有 状态 信息 ， 包 括 权 限 、 组 、 用 户 和 时 间 


>>> shutil.copystat('filel.txt','file3.txt') 
5. 一 种 文件 的 内 容 和 权限 的 复制 


shutil.copy(filel，file2) 函 数 复制 文件 的 内 容 以 及 权限 ， 相 当 于 先 执 行 copyfile0 后 再 执行 
copymode()， 返 回 file2。 


>>> shutil.copy('filel.txt','file3.txt') 
"file3:txt" 


6. 另 一 种 文件 的 内 容 和 权限 的 复制 


shutil.copy2(file1，file2) 函 数 复制 文件 的 内 容 以 及 文件 的 所 有 状态 信息 ， 相 当 于 先 执行 
copyfile0 再 执行 copystat0， 返 回 file2。 


>3> "hutil COBv2 filel tert rr "file tt 
vile3 ERE 


7. 递归 地 复制 文件 内 容 及 状态 信息 
shutil 提供 了 一 个 函数 copytree0， 用 来 递归 地 复制 文件 内 容 及 状态 信息 。 


Shutil.copytree (src,dst,symlinks=False,ignore=None, copy_ function=copy2,ign 


ore dangling symlinks=False) 


copytree0 的 使 用 通过 例子 11.7 来 展示 。 
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例子 11.7 shutil.copytree() 的 使 用 


>>> 1s 


驱动 器 c 中 的 卷 是 system 
卷 的 序列 号 是 2496-EC22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/23 
2018/04/23 
2018/04/23 
2018/04/23 
2018/04/23 


TO 


17 
Ep 


17: 
ER 
17: 


全 
2 


:20 ”<DIR> 
:20 ”<DIR> 
06 

12 

06 

个 文件 


56 filel.txt 
0 file2.txt 
56 file3.txt 
112 字 节 


个 目录 17, 306, 734, 592 可 用 字 节 


C:\Users\Administrator 


>>> shutil.copytree('os-shutil','os-shutil-cp') 


'os-shutil-cp"' 


11.2.2 ”移动 文件 


使 用 shutil.move(srce，dst,，copy_function=copy2) 函 数 可 以 递归 地 移动 文件 或 重 命 名 ， 并 返 
回 目标 。 若 目标 是 现 有 目录 ， 则 src 在 当前 目录 移动 : 若 目 标 已 经 存在 且 不 是 目录 ， 则 可 能 


会 被 覆盖 。 移 除 文件 的 演示 如 例子 11.8 所 示 。 
例子 11.8 ”移动 文件 


>>> import shutil 


>>> import os 


>3> 03.1istadir(".") 
[Ee 


Ee 


“file3. txt"] 


>3> ahutil,move("filel txt"y "fileda.txt") 


EXE 


SEE 
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fille2. txt "ys 


vfile3 txt"y "filed.txt"] 


11.2.3” 读 取 压 缩 及 归档 压缩 文件 


make_archive() 函 数 


i 


五 


于 创建 归档 文件 ， 并 返回 归档 后 的 名 称 ， 语 法 如 下 : 


shutil.make archive(base name, format[, root dir[, base dir[, verbose[, dr 


Y_run[，owner[v 


group[, logger]]]]]]]) 


base_name 为 需要 创建 的 文件 名 称 ， 包 括 路 径 ， 要 减 去 任何 特定 格式 的 扩展 名 。format 
可 选项 有 zip、tar 或 bztar 等 ， 可 以 通过 shutil.get archive_ formats() 获 取 支 持 的 归档 格式 列 
表 。root_dir 为 归档 文档 的 目录 。 读 取 压 缩 及 归档 压缩 文件 可 通过 例子 11.9 来 展示 。 


例子 11.9_ 读 取 压 缩 及 归档 压缩 文件 


和 


驱动 器 c 中 的 卷 是 SYStem 
卷 的 序列 号 是 2496-Fc22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/24 
2018/04/24 
2018/04/23 
2018/04/23 
2018/04/23 


09:29 ”<DIR> 
09:29 <DIR> Se 

sir/ eS 0 file2.txt 
17:06 56 file3.txt 
17:06 56 file4.txt 
BS DE 112 字 节 

2 个 目录 17,314, 975, 744 可 用 字 节 


>>> shutil.make archive('.','zip','.') 


'C:\\Users\\Administrator\\os-shutil.zip' 


11.2.4 解压 文件 
可 以 通过 函数 shutil.unpack archive(filename[,extract_dir[,format]]) 分 拆 归 档 。 其 中 ， 

filename 为 归档 的 完整 路 径 ，extract_dir 为 解压 归档 的 目标 目录 名 称 ， 如 果 未 提供 就 使 用 当前 

目录 进行 解压 。 格 式 是 文件 存档 格式 、zip、tar 或 其 他 。 解 压 文件 的 展示 如 例子 11.10 所 示 。 


例子 11.10 ”解压 文件 


>>> os.listdir('e:\\testdir') 


['index.html', 


OSBpY'r ‘two.txt"] 


> shutil make archive(® "7 "Zp".") 


'C:\\Users\\Administrator\\os-shutil.zip’' 
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>>> shutil.unpack archive('C:\\Users\\Administrator\\os-shutil.zip', 'e:\\t 


: estdir') 


>>> os.listdir('e:\\testdir') 

Leflore "FILed. tre UEiLled Ext Tinder htm ompy rn SEwor ta 

2 

关于 shutil 模块 就 介绍 到 这 里 。 当 然 ， 除 了 上 述 功 能 ，shutil 模块 还 有 获取 终端 窗口 大 
小 、 引 发 同一 文件 异常 等 功能 。 


开始 编程 : 文件 处 理 实战 


【本 节 代 码 参 考 : Cll\dir images.py】 

我 们 利用 本 章 所 学 的 知识 创建 一 个 小 应 用 。 该 应 用 在 图 片 识 别处 理 中 常常 会 涉及 ， 比 如 
用 于 训练 的 图 片 库 ， 首 先 得 删除 该 图 片 库 中 的 非 图 片 文件 ， 然 后 对 这 些 图 片 按 一 定 规律 进行 
命名 ， 以 及 创建 图 片 的 索引 ， 便 于 图 像 识 别 程序 能 够 根据 索引 文件 进行 处 理 。 

创建 一 个 文件 dir_images.py， 输 入 如 例子 11.11 所 示 的 代码 。 
例子 11.11 文件 处 理 实战 


01 import os 


02 import shutil 

03 import time 

04 

05 ## 可 选 的 图 片 列表 

06 IMG = ['jpg', 'jpeg', 'gif', 'png'] 
07 

08 # 重 命名 图 片 及 删除 非 图 片 文件 


09 def rename image (Path) : 


10 global i # 定义 全 局 变量 

11 if not os.path.isdir(path) and not os.path.isfile(path): # 判断 是 否 
是 目录 或 文件 

2 return False 

ple, if os.path.isfile (path): # 如 果 是 文件 

14 file path = os.path.split (path) # 分 割 出 目录 与 文件 名 

15 lists = file path[1] .split('.') ## 分 割 出 文件 与 文件 扩展 名 

16 file ext = lists[-1] # 取出 后 缀 名 

1 if file ext in IMG: # 判断 该 后 缀 名 是 否 是 图 片 的 后 缀 名 

18 os .rename (path, file path[0] + "/" + lists[0] + str(i) + '.' 
.F116 exE) 

19 a 
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20 


Silaes 


ZL print (file path) 

电光 os.remove (os.path.join(file path[0], file path[1])) 

23 elif os.path.isdir (path): # 如 果 是 目录 

24 for x dn os listadir(path}: 

25 rename image (os.path.join (path, 

26 

27 ## 创建 文本 索引 文件 

28 def create index (path): 

29 if not os.path.isdir (path) and not os.path.isfile(path): # 判断 是 否 
是 目录 或 文件 

30 return False 

= if os.path.isdir(path): 

民 lists = os.listdir (path) 

33 with open(os.path.join(path, '‘'index.txt'), ‘'a+', encoding='utf-— 
8°) as Es 

34 for item in lists: 

35 f.write(item) 

36 Eite(l Na 

= 

38 +# 压缩 目录 下 的 文件 

39 def archive dir(path): 

40 shutil.make archive (path, ‘zip') 

41 

42 ”# 执行 主 函数 

43 def main (Path) : 

44 rename image (path) 

45 create index (path) 

46 archive dir (path) 

47 

48 if name = " main _": 

49 img_dir = input ("请 输入 路 径 :") # 取得 图 片 文件 夹 路 径 ， 比 如 "E:\images" 

50 start = time.time() # 计时 

SE 主 =0 # 初始 化 计算 器 为 0 

感人 main (img_ dir) 

53 m= time.time() - start 

54 print ("程序 运行 耗 时 :%0 .2f" gs m) 

55 print (" 总 共处 理 了 sd 张 图 片 " ss i) 

以 某 主机 为 例 ， 处 理 E:\images 下 的 文件 ， 目 录 如 图 11.1 所 示 。 
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图 11.2 处 理 后 的 目录 E:\images 


同时 会 在 images 同 级 目录 下 创建 一 个 images.zip。 在 Windows cmd 中 执行 该 代码 可 能 会 


报 PermissionError 错误 ， 这 是 权限 问题 ， 不 影响 我 们 所 需 的 结果 。 


1 1 .4 本章 小 结 


日 常 编程 时 ， 处 理 数 据 是 大 多 数 情 况 ， 但 文件 的 处 理 也 是 必 不 可 少 的 。 需 要 稍微 注意 的 
是 不 同 的 操作 系统 ， 路 径 分 隔 符 也 不 一 样 ， 在 文件 处 理 中 要 考虑 这 种 情况 。 可 以 使 用 


os.sep 


来 替代 文件 分 隔 符 ， 避 免 因 为 操作 系统 而 造成 程序 异常 。 另 外 ， 文 件 权 限 、 文 件 和 文件 夹 区 


别 的 问题 也 需要 考虑 。 相 对 而 言 ， 在 Linux 下 的 文件 处 理 可 能 会 稍微 简单 一 点 。 
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第 12 章 
< 正则 表达 式 > 


正则 表达 式 是 用 于 处 理 字符 串 的 强大 工具 ， 拥 有 自己 独特 的 语法 以 及 独立 的 处 理 引 擎 。 
它 是 计算 机 语言 常会 涉及 的 内 容 ， 在 不 同 语言 中 会 由 不 同 的 方式 调用 ， 在 Python 中 是 由 re 
模块 处 理 的 。 
本 章 的 主要 内 容 是 : 
@ ”正则 表达 式 的 介绍 : 主要 从 概念 和 构成 进行 讲解 ， 从 而 能 够 正确 使 用 正则 表达 式 进 
行 日 常 应 用 。 
@@ Python 中 的 正则 模块 介绍 : 通过 re 模块 的 基础 应 用 掌握 Python 处 理 字符 串 的 方 
法 
@ 常用 正则 表达 式 的 使 用 : 目的 是 熟练 使 用 正则 表达 式 进 行 字 符 串 处 理 。 


正则 表达 式 简 介 


本 节 首 先 介绍 正 则 表达 式 的 基本 概念 〈 理 解 概念 是 学 习 正 则 表达 式 构 成 的 基础 ) ， 然 后 
通过 对 正则 表达 式 的 构成 讲解 熟练 掌握 基本 正则 表达 式 的 规则 。 


12.1.1 正则 表达 式 概 念 

正则 表达 式 作为 计算 机 科学 的 一 个 概念 ， 通 常 被 用 来 检索 、 蔡 换 那些 符合 某 个 规则 的 文 
本 。 正 则 表达 式 是 对 字符 串 操作 的 一 种 罗 辑 公式 ， 用 事先 定义 好 的 规则 字符 串 对 字符 串 进行 
过 滤 罗 辑 处 理 。 

从 本 质 上 讲 ， 正 则 表达 式 是 一 种 小 型 的 、 高 度 专业 化 的 编程 语言 。 在 Python 中 ， 正 则 表 
达 式 通过 re 模块 实现 。 正 则 表达 式 可 以 先 给 匹配 的 相应 字符 串 集 〈 该 字符 串 集 可 能 包含 英文 
语句 、e-mail 地 址 、shell 命令 ) 指定 规则 ， 再 通过 re 模块 以 某 些 方式 来 修改 或 分 割 字符 串 。 

正则 表达 式 模式 先 被 编译 成 一 系列 的 字 节 码 ， 再 由 用 C 语言 编写 的 匹配 引擎 执行 ， 所 以 
从 某 程度 上 说 比 直接 写 Python 字符 串 处 理 代 码 快 些 ， 但 是 并 非 所 有 字符 串 处 理 都 能 用 正则 表 
达 式 完成 。 即 使 有 些 处 理 可 以 使 用 正则 表达 式 完成 ， 也 会 使 表达 式 变 得 异常 复杂 ， 可 读 性 很 


差 ， 甚 至 过 后 连 自己 也 看 不 懂 了 。 碰 到 这 种 情况 ， 建 议 编写 Python 代码 ， 毕 竟 一 段 Python 
代码 比 一 个 精巧 的 正则 表达 式 要 更 容易 理解 。 


12.1.2 ”正则 表达 式 构成 

正则 表达 式 由 两 种 字符 构成 : 一 种 是 在 正则 表达 式 中 具有 特殊 意义 的 “元 字符 ”， 另 一 
种 是 普通 字符 。 这 里 的 “字符 ”可 以 是 一 个 字符 ， 如 “^”; 也 可 以 是 一 个 字符 序列 ， 如 
“\w”。 表 12-1 列 出 Python 支持 的 正则 表达 式 元 字符 及 语法 。 


表 12-1 正则 表达 式 元 字符 及 语法 


语法 说 明 表达 式 实 例 实例 匹配 的 字符 串 
一 般 字 符 匹配 自身 Abc abc 
匹配 除了 换行 符 “\m” 以 外 的 任意 一 个 字 | ac aac/abc/acc 
符 ， 在 DOTALL 模式 中 也 能 匹配 换行 符 
转 义 字符 ， 使 后 一 个 字符 串 改变 原来 的 意 | ab\. ab. 
思 ， 比 如 字符 串 中 有 “* ”需要 匹配 ， 可 以 
使 用 或 于 
abcd 开本 abc a/b/c 
[0-9] 匹配 0-9 中 任意 一 个 数字 ， 等 价 于 | [o-3] 0/1/2/3 
0123456789; 
[nu4e00-\u9fa5] | 匹配 任意 一 个 汉字 [wu4e00-vu9fas] 匹 / 配 / 任 / 意 / 一 /个 / 
汉 / 字 
[^a0=2] 匹配 除 “ “0”“=”“2” 外 的 其 他 任 | [^a0=2] b/c/1/4/^ 
意 一 个 字 和 
Aa-z 匹配 除 小 写字 母 外 的 任意 一 个 字符 Aa-Z A/B/^ 


任意 一 个 数字 ， 相 当 于 [0~9] alc/a0c/a2c 
\D 意 一 个 非 数 字 字 符 ， 相 当 \d 的 取 | aDe abc/adc/aec 
反 ， 即 [A0-9] 
's 匹配 任意 空白 字符 ， 相 当 于 [aftv] avsb abla b 
\S 匹配 任意 非 空白 字符 ， 相 当 于 \ 的 取 反 ， | a\sc abc/abbc 
即 [Amvfvtvv] 
Ww 匹配 任意 一 个 字母 、 数 字 或 下 划 线 ， 相 当 | avwc aac/a0c/a c 
于 [a-zA-Z0-9 ] 
VW 匹配 任意 一 个 非 字母 、 数 字 或 下 划 线 ，\w | avWe a*c/a$c 
的 取 反 ， 相 当 于 [^a-zA-Z0-9 ] 
匹配 前 一 个 字符 0 次 或 无 限 次 abc* ab/abc/abccccc 
过 匹配 前 一 个 字符 1 次 或 无 限 次 abc+ abc/abcc/abcccccccc 


? 匹配 前 一 个 字符 0 次 或 1 次 abc? ab/abc 
{m} 匹配 前 一 个 字符 mm 次 ab{3}c abbbc 
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( 续 表 ) 


语法 说 明 表达 式 实 例 实例 匹配 的 字符 串 
{mn} 匹配 前 一 个 字符 m 到 n 次,，m 和 mn 可 以 省 | ab{1,2}c abc/abbc 
略 : 省 略 m， 则 匹配 0 到 n 次 ; 省 略 n， 
则 匹配 m 到 无 限 次 
交 匹配 字符 串 的 开始 位 置 ， 不 匹配 任何 字符 ^abc abc 
$ 匹配 字符 串 的 结束 位 置 ， 不 匹配 任何 字符 abc$ abc 
A 仅 匹 配 字符 串 的 开始 位 置 \Aabc abc 
\b 匹配 Ww 和 \W 之 间 a\b!bc albc 
B Wb 的 取 反 a\Bbc abc 
Zz 仅 匹 配 字符 串 的 结束 位 置 abc\Z abc 


子 表达 式 之 间 “ 或 ”关系 匹 
匹配 分 组 
匹配 分 组 ， 除 了 原 有 编号 外 再 指定 一 个 额 
外 的 别名 
匹配 引用 编号 为 <number> 的 分 组 到 字符 串 


(?P<name>...) 


\<number> 


匹配 引用 别名 为 <name> 的 分 组 到 字符 串 中 


光村 匹配 不 分 组 的 (.….)， 后 接 数 量词 
iLmsux 的 每 一 个 字符 代表 一 个 匹配 模式 ， 
只 能 用 于 字符 串 的 开始 位 置 ， 可 选 多 个 
# 后 的 内 容 将 作为 注释 被 忽略 


(2iLmsux) 


(?P<id>abc){2} 


(Cd)abc\l 


(2iDabc 


abc(?#comment)123 


(?(idname)yes- | 匹配 编号 为 id 或 别名 为 name 的 组 ， 需 要 | Q(\d)abc(?(1)\dlabc) 1abc2/abcabc 
Patternlno- 匹配 yes-pattem， 否 则 需要 匹配 no-pattern 
Lpattern) 


abc/def 
abcabcabc 
abcabc 


labcl/3abc3 


2abc2/4abc4 


abcabc 
AbC 


abc123 


从 表 12-1 可 以 看 出 只 是 单一 针对 字符 串 匹 配 ， 可 在 实际 应 
因此 ， 建 议 读者 认真 掌握 ， 以 便 在 Python 开发 时 能 顺手 拿 来 


中 是 多 种 单一 匹配 的 组 合 ， 
上 。 对 于 读者 而 言 ， 介 绍 这 么 


多 其 实 是 很 枯燥 的 ， 接 下 来 将 结合 Python 中 的 re 模块 进行 讲解 ， 以 便于 读者 熟 掌握 。 


re 模块 的 简单 应 用 


本 节 主 要 介绍 re 模块 的 常 上 
处 理 字符 串 。 


功能 函数 ， 然 后 通过 这 些 函 数 调用 正则 表达 式 元 字符 及 语法 


Python 自 1.5 版 本 起 才 增 加 了 re 模块 ， 它 提供 如 Perl 风格 的 正则 表达 式 模式 。 可 以 在 
Python 安装 目录 下 Lib 目录 中 找到 repy 文件 (re 模块 ) 。 
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有 导入 regex 模块 的 方式 ， 说 明 Python 版 本 低 于 1.5。 


re 模块 内 嵌 在 Python 中 ， 因 此 可 以 直接 导入 。 查 看 re 版 本 及 属性 方法 函数 的 方式 如 下 : 


>>> import re 


>2>>F6. Version 
a 


ee 
[ “match", "search", “sub", "subn", "split", “findall", "compile", "purge", 
"template", "escape", "I"™, "L", "M", "S", "X", "U", "IGNORECASE", "LOCALE", 


"MULTILINE", "DOTALL", “VERBOSE","UNICODE", “error" ] 


从 上 述 代 码 可 以 看 出 ，re 模块 涉及 的 函数 并 不 多 ， 功 能 一 是 查找 文本 中 的 模式 、 二 是 编 
译 表 达 式 、 三 是 多 层 匹 配 ， 同 时 还 定义 了 一 些 常量 。 

查找 文本 中 的 模式 主要 使 用 search0 函 数 。 该 函数 有 pattern、string、flags 共 3 个 参数 : 
pattern 表示 编译 时 用 的 表达 式 字符 串 ，string 表示 用 于 匹配 的 字符 串 ，flags 表示 编译 标志 
位 ， 用 于 修改 正则 表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 多 行 匹配 等 ， 默 认 值 为 0。 常 用 
的 flags 如 表 12-2 所 示 。 


表 12-2 常用 的 flags 及 其 含义 


标志 含义 


使 “.” 匹 配 包括 换行 在 内 的 所 有 字符 
使 配对 大 小 写 不 第 
做 本 地 化 识别 locale-aware) 史 配 等 


re.M(MULTILINE) 多 行 匹 配 ， 影 响 ^“ 和 $ 
re.X(VERBOSE) 通过 给 予 更 灵活 的 格式 以 便 将 正则 表达 式 写 得 更 易于 理解 
reU 根据 Unicode 字符 集 解析 字符 ， 影 响 w、\W、\b、\B 


re.search0 函 数 通 过 模式 (模板 内 容 ) 和 要 扫描 的 文本 作为 输入 ， 返 回 匹 配对 象 。 如 果 未 
找到 匹配 模式 则 返回 None。 


>>> import re 


Ee 


>>> pattern = "模块 " 

>>> string = "如 何 学 习 re 模块 ? 多 多 实践 操作 !" 
>>> match = re.search(pattern, string) 
>>> match.start () 


>>> match.end() 
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>>> string[6:8] 
:模块 ， 


>>> match 


<_sre.SRE Match object; span=(6，8)， match=' 模 块 '> 


从 如 上 代码 可 以 看 出 match 为 返回 的 匹配 对 象 ， 包 含 了 有 关 匹 配 性 质 的 信息 。 例 如 ， 使 


groups() 等 方法 。start0 方 法 返 


法 返回 被 匹配 的 字符 串 ; span0 方 法 返 划 


匹配 的 正则 表达 式 ， 模 式 在 原 字 符 串 中 出 现 的 位 置 ， 具 有 start0、end0、groupO、span()、 


回 匹配 开始 的 位 置 ， end( 方 法 返回 匹配 结束 的 位 置 ，groupO 方 


一 个 包含 匹配 〈 开 始 ， 结 束 ) 位 置 的 元 组 ; groupsO 


方法 返回 一 个 包含 正则 表达 式 中 所 有 小 组 字符 串 的 元 组 ， 从 1 到 所 含 的 小 组 号 ， 通 常 不 需要 


参数 ， 返 回 一 个 元 组 〈 元 组 中 的 元 就 是 正则 表达 式 中 定义 的 组 ) 。 除 此 之 外 还 有 一 个 
group(n,m) 方 法 ， 返 回 组 号 为 n,m 所 匹配 


>>> print (re.search("([0-9]*) ( 


123abc456 


>>> print (re.search("([0-9]*) ( 


123 


>>> print (re.search("([0-9]*)( 


abc 


22 print{(re.searcl(" (L092 ( 


456 


>>> print (re.search("([0-9]*)( 


123abc456 


>>> print (re.search("([0-9]*)( 


Lo abe Se 


的 字符 串 ， 若 组 号 不 存在 则 报 indexError 错误 。 


a-z]*) ([0-9]*)","'123abc456') .group (0)) 


a-z]*) ([0-9]*)",'123abc456') .group (1)) 


a-Z]*)([0-9]*)" "123abc456") .group (2)) 


a-z]*) ([0-9]*)","'123abc456') .group (3)) 


a-z]*) ([0-9]*)","123abc456"') .group ()) 


a=2]*) (LO0=97*) "7 "L123abc456") .groups'()) 


编译 正则 表达 式 使 用 compile0 函 数 。 该 函数 返回 一 个 对 象 模式 ， 有 两 个 参数 ， 分 别 为 
pattermn、flags=0， 其 含义 与 search0 函 数 中 介绍 的 一 样 。 将 正则 表达 式 编译 成 正则 表达 式 对 


象 ， 可 以 提供 执行 效率 。 


>>> string =" 如 何 学 习 re 模块 ? 如 何 学 习 flask 开发 ， 如 何 学 习 Python 开发 进行 大 数 


5 据 开发 ?" 


>>> pattern = re.compile(' 如 何 ') 


>>> match = pattern.search (string) 


>>> print (match.group()) 


如 何 


上 述 代 码 通 过 compile0 编 译 “ 如 何 ” 字 符 串 模式 。 通 常 编译 的 表达 式 都 是 程序 频繁 使 用 


的 表达 式 ， 这 样 编译 起 来 会 更 为 高 效 ， 当 然 也 会 开销 一 些 缓存 。 使 用 已 编译 的 表达 式 还 有 一 
个 好 处 ， 即 在 加 载 模块 时 就 编译 所 有 表达 式 ， 而 不 是 当 程序 相应 用 户 动 作 时 才 进 行 编译 。 
函数 matchO 用 在 文本 字符 串 的 开始 位 置 匹配 。 


>>> print (re.match('cn','cnwww.baidu.com') -group()) 
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cn 


>>> print (re.match('cn','Cnwww.akaros.com', re.I) .group()) 


该 方法 并 非 完全 匹配 ， 比 如 pattem 'cn' 只 要 匹配 首次 出 现 的 'cn' 即 可 ， 大 在 和 其 所 是 
否 有 字符 串 。 如 果 想 全 局 匹配 ， 可 以 在 表达 式 末 尾 加 上 边界 匹配 符 $ 。 : 


可 以 使 用 函数 findall0 进 行 遍历 匹配 ， 获 取 字 符 串 中 所 有 匹配 的 字符 串 ， 返 回 一 个 列 
search(O 用 于 查找 字符 串 的 单个 匹配 ，findallO 函 数 的 作用 与 参数 跟 search0 一 样 ， 但 它 返 


可 所 有 匹配 且 不 重 倒 的 子 字符 串 。 


Match 实例 ， 不 像 fndall0 那 样 返回 字符 串 。 例 子 12.1 将 演示 上 有 


>>> string ='abbaaabbbbaaaaabbbaababcdabcdabdebababddfedf"' 
>>> pattern = 'ab' 

>>> match = re.findall (pattern, string) 

>>> print (match) 

[vab', ap’, ab', "ab’, ‘ab', ab "ap, "ab", “ab'] 


函数 finditerO 的 使 用 方式 与 findall0 差 不 多 ， 也 是 3 个 参数 ， 一 个 迭代 器 。 它 将 生成 


例子 12.1 finditer() 的 例子 
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>>> match = re.finditer(pattern, string) 
>>> print (match) 
<callable iterator object at Ox03DFS5FFO> 


>>> for i in match: 
print (i) 
print (i.group()) 


print (i.span()) 

<_sre.SRE Match object; span=(0, 2), match='ab'> 
ab 

(0, 2) 

<_sre.SRE Match object; span=(5, 7), match='ab'> 
ab 

(5, 7) 

<_sre.SRE Match object; span=(14, 16), match='ab'> 
ab 

(14, 16) 

<_ sre.SRE Match object; span=(19, 21), match='ab'> 
ab 

| | 

<_sre.SRE Match object; span=(21, 23), match='ab'> 
ab 


2 
<_ sre.SRE Match object; span=(25, 27), match='ab'> 


ab 

(25. 27) 

<_sre.SsSRE Match object; span=(29, 31), match='ab'> 
ab 

297 31) 

<_sre.SRE Match object; span=(34, 36), match='ab'> 
ab 

(34, 36) 

<_sre.SRE Match object; span=(36, 38), match='ab'> 
ab 

(36, 38) 


除了 上 述 介绍 的 查找 、 编 译 、 匹 配 ， 还 可 以 利用 re 模块 的 splitO 方 法 进行 分 割 、subO 和 
subn() 进 行 蔡 换 。 

@ re.split0) 按 照 能 够 匹配 的 子 字符 串 将 需 匹 配 的 字符 串 进行 分 割 ， 返 回 列表 ， 参 数 有 
pattern、string 等 。 

>>> print (re.split('\d+', 'wolmen2shi3hao4peng5you6')) 

| menry Mon haonyr Moeng yr TYonye ul 

@ re.sub() 使 用 pattem 替换 string 中 每 一 个 匹配 的 子囊 后 返回 替换 后 的 字符 串 。 格 式 为 
re.sub(pattern, repl, string, count)。 


@ re.subn() 返 回 替换 次 数 。 
Sy nd = 


>>> print(re-sub(r" Net+y "= gtring)d 

学 -无 - 止 - 镜 

>>> print (re.subn(' [1-2]'，' 学 习 '，'123456^%$#8@!lqaz2wsx3edc4rfv')) 
(' 学 习 学 习 3456^%$#@! 学 习 qaz 学 习 wsx3edc4rfv'，4) 


关于 re 模块 的 应 用 就 介绍 到 这 里 ， 事 实 上 正则 表达 式 远 不 止 这 么 简单 ， 不 过 掌握 上 面 介 
绍 的 方法 后 ， 一 般 字符 串 正则 处 理 还 是 比较 容易 解决 的 。 


常用 正则 表达 式 


前 面 介 绍 re.compile0 函 数 时 讲 过 ， 使 用 该 函数 预先 编译 好 的 正则 表达 式 (一 般 适 于 常 
的 正则 表达 式 ) 来 提高 执行 效率 。 
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法 。 


12.3.1 常用 数字 表达 式 的 校 验 


用 的 表达 式 ， 并 使 用 re 模块 对 其 进行 处 理 演 示 。 


加 由 


在 正则 表达 式 元 字符 及 语法 中 ， 我 们 以 表格 的 形式 列举 了 正则 表达 式 的 基本 格式 及 语 
本 节 的 常用 正则 表达 式 无 非 就 是 在 元 字符 及 语法 的 基础 上 进行 扩展 应 用 。 


数字 表达 式 校 验 主要 针对 文本 中 出 现 的 数字 进行 正则 表达 式 的 匹配 ， 下 面 将 讲解 一 些 常 


1. ^[0-9]*$ 
从 表 12-1 可 以 看 出 ， “全 ”匹配 开始 字符 串 开 始 位 置 ，“[0-9]” 匹 配 0~9 中 任意 一 个 数 
*， 匹 配 前 一 个 字符 0 次 或 无 限 次 ，“$ ”匹配 字符 的 结束 位 置 。 综 上 所 述 ， 该 表达 式 


用 来 匹配 数字 的 ， 可 以 是 2， 也 可 以 是 22222222222222222222。 


>>> import re 
>>> num = re.search(’'^[0-9]*$', "123') 


>>> print (num.group()) 
2 . Adfn}$ 
该 表达 式 匹 配 的 是 n 位 数字 。 


>>> num = re.findall('^\d{3}$','224') 
>>> num 
| 


3. Adtn)$ 

该 表达 式 匹 配 的 是 至 少 n 位 数字 。 

S33 nim = Fe EdnodalANGU3 SnT 43533》 
Se 

【4 人 53 

4. Adfmnj$ 

该 表达 式 匹 配 m 到 nm 的 数字 ，n 大 于 m。 


So nuUm = Te indalL( Nt "4353n) 


>>> num 
TS353 


5. ^([1-9][0-9]”)+(.[0-9]{1,2))?$ 
该 表达 式 匹 配 最 多 带 两 位 小 数 的 数字 。^([1-9][0-9]9)$ 匹 配 的 是 非 零 开头 的 数字 ， 而 ^(.[0- 


9]{1,2})?$ 匹 配 的 是 最 多 带 两 位 小 数 的 数字 。 


206 


>2> Tim = re.findall ("~ (LL 7091*)+(-.10-9] 24)28", "234.534*) 


>>> num 


eee Bd! 


6. ^[0-9]+(.[0-9]{1,3})?$ 
该 表达 式 匹 配 1~3 位 小 数 的 正 实数 。 


>>> num = re.findall("'^[0-9]+(.[0-9] {1,3})?2$"', '233.23') 

>>> num 

| | 

>>> num = re.findall('^([0-9])+(.[0-9] {1,3})?2$', '233.23') 

>>> num 

USD S230 

两 次 模式 不 同 的 地 方 就 是 是 否 有 '0' ， 得 到 的 结果 有 所 不 同 。 

7. ^[1-9N\d*$ 

该 表达 式 匹配 非 零 的 正 整 数 ， 注 意 “*” 匹 配 的 是 前 一 个 字符 ， 而 且 匹配 非 零 正 整 数 的 表 
达 式 可 以 有 多 种 表现 形式 ， 比 如 入 +?[1-9][0-9]*$。 

>>> num = re.findall('^[1-9]\d*$', "344°') 

>>> num 

['344'] 

>>> num = re.findall('^\+?[1-9] [0-9]*$', '344') 


>>> num 
['344°'] 


常用 数字 表达 式 有 很 多 ， 本 小 节 就 介绍 到 这 里 。 读 者 可 以 举一反三 ， 解 决 更 多 的 相关 问 
题 。 


12.3.2 ”常用 字符 表达 式 的 校 验 
在 文本 分 析 中 ， 常 常会 涉及 字符 表达 式 的 处 理 ， 比 如 提取 某 些 汉字 、 对 长 度 为 多 少 的 字 
符 进行 删除 等 。 接 下 来 我 们 将 以 一 些 基本 的 字符 表达 式 进行 立 述 。 


1. 汉字 的 匹配 


在 Python 2.X 中 匹配 需 转 化 UTF-8 编码 ， 在 Python 3.X 中 则 无 须 考虑 这 个 问题 。 汉 字 的 
编码 范围 为 \u4e00 ~ \u9fa5。 如 果 想 匹配 1~3 个 汉字 的 字符 串 ， 如 何 操作 呢 ? 


>>> import re 


>>> test="my name is 你 好 吗 ，how are you?" 


207 


>>> result = re.findall('[\u4e00-\u9fa5] {1,3}',test) 
>>> result 


[你 好 吗 '] 
2. 英文 和 数字 的 匹配 
英文 和 数字 的 匹配 可 以 使 用 ^[A-Za-z0-9]+$， 如 果 想 抽取 某 些 字符 串 文本 的 英文 数字 该 如 


何 操作 呢 ? 例子 12.2 演示 一 下 英文 和 数字 的 匹配 。 
例子 12.2 英文 和 数字 的 匹配 


>>> test = "我 的 名 字 是 张三丰 ， 我 的 吉祥 数字 是 886，Hailm 
>>> result = re.findall('[A-Z2a-z0-9]+',test) 
>>> result 

LS88627 ad 

>>> result = re.findall(' [A-Za-z]+',test) 
>>> TESULE 

['Hai'] 

>>> result = re.findalll(' [A-Z]+',test) 

>>> result 

站 

>>> result = re.findall('[a-z0-9]+'vtest) 
>>> result 

['886', "ai'] 

>>> result = re.findall('[A-20-9]+',test) 
>>> result 

| Bk :A | 


3. 中 文 、 英 文 、 数 字 和 某 些 字符 的 匹配 


@ 匹配 由 数字 、26 个 英文 字母 或 者 下 划 线 组 成 的 字符 囊 可 以 使 用 ^w+5$。 

@ ”匹配 中 文 、 英 文 、 数 字 和 包括 下 划 线 可 以 使 用 ^[\u4E00-\u9FA5A-Za-z0-9_]+5。 

@ 匹配 中 文 、 英 文 、 数 字 但 不 包括 下 划 线 等 符号 可 以 使 用 ^[vu4E00-\u9FASA-Za-z0- 
9]+$。 

@@ 匹配 可 以 输入 含有 ^%&’,;=?$\”* 等 字符 的 表达 式 可 用 [^%&',;=?$\x22]+。 

>>> test ="Wo name is 张三丰 ， 可 以 这 样 拼 : Zhang_san_ feng, 我 的 手机 号 是 86-1 
: 23123XXX" 

>>> result = re.findall('[\u4E00-\u9FASA-Za-z0-9 ]+',test) 

>>2 Fesult 

['Wo'，'"'name'，"'is',' 张 三 丰 '，' 可 以 这 样 拼 '，'zhang_san_ feng '，' 我 的 手 

机 号 是 86'，'123123XXX'] 


从 代码 结果 看 出 ， 对 文本 的 处 理 是 以 空格 作为 分 隔 符 的 ， 根 据 匹 配 规则 可 以 得 知 “-” 是 


无 法 匹配 的 ， 因 此 返回 的 结果 不 会 出 现 “-”。 
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12.3.3 ”特殊 需求 表达 式 的 校 验 

在 网 站 注册 页 面 上 常常 会 出 现 输入 用 户 名 、 密 码 及 E-mail 等 ， 当 输入 的 邮箱 不 含 “@” 
符号 时 ， 网 页 就 会 提示 输入 E-mail 地 址 错误 ， 这 个 过 程 其 实 就 是 一 个 正则 表达 式 的 处 理 。 下 
面 就 这 些 特殊 需求 的 表达 式 校 验 进行 一 个 总 结 。 

1. E-mail 地 址 


E-mail 处 理 的 表达 式 使 用 方式 为 入 w+([-+.] 人 w+*@\Ww+([-. 人 w+)*Nw+([-.J\Ww+)*$ 。 例 子 
12.3 演示 该 表达 如 何 验证 输入 的 E-mail 是 否 正确 。 


例子 12.3 ”E-mail 地 址 的 校 验 


>>> import re 


mr 


>>> test = "nontom@gmail .com" 

>>> testl = "nontomgmail .com" 

>>> test2 = "nontom@gmail" 

>>> result = re.match('^\w+t([-+.]\w+)*@\w+([-.]\w+t)*\.\wt+t([-.]\w+)*$',test) 


>>> print (result.group()) 

nontom@gmail .com 

>>> result = re.match('^\wt+t([-+.] \w+)*@\w+([-.]\w+t)*\.\w+([— 
。]Nw+)*S$S vtest1) 

>>> Print (result.group()) 


AttributeError Traceback (most recent call last) 
<ipython-input-9-666d063f295f> in <module>() 
----> 1 print(result.group()) 


AttributeError: 'NoneType' object has no attribute 'group' 


>>> result = re.match('^\wt+([-+.]\w+)*@\w+t([—.]\w+)*\.\wt([-.]\w+t)*$',test 
3 2 


>>> print (result.group()) 


AttributeError Traceback (most recent call last) 
<ipython-input-13-666d063f295f> in <module>() 
= 一 = 二 pzinti(esult group)) 


AttributeError: 'NoneType' object has no _ attribute group 


从 上 述 代码 就 可 以 看 出 ， 对 于 testl 和 test2， 由 于 它 不 是 标准 的 E-mail， 不 匹配 正则 表达 
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式 规则 和 w+([-+.]J 人 w+*@\Ww+([-.] 人 w+)*\.\w+([-.] 人 w+)*$ ， 因 此 执行 它 会 报 AttributeError 错误 。 
2. 域名 


我 们 所 看 到 的 baidu.com 就 是 所 谓 的 域名 ， 判 断 是 否 是 一 个 有 效 的 域名 正则 表达 式 是 
(2iD)^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}$ 。 若 想 在 一 段 长 文本 中 找到 有 效 的 域名 ， 则 可 使 
?iN\b([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z] {2.}\b。 


>>> test = "baidu.com" 
>>> result = re.match(' (2i)^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z] {2,}$',test) 
>>> print (result.group()) 


baidu.com 


3. 手机 号 码 


中 国 的 手机 号 码 为 11 位 ， 而 且 一 般 是 以 13、14、15、17、18 等 开头 ， 因 此 可 以 确定 的 
是 开头 为 1， 第 二 位 为 3、4、5、7、8， 则 其 表达 式 可 为 1[3458]\d{9}。 

>>> test = "12315632143 13213213211 54234432521 14345433333 182345345654" 

>>> result = re.findall('1[3458] \\d{9}', test) 

>>> result 

[13213213211", "14345433333"s “18234534565"] 


4. 身份 证 号 

一 般 身份 证 号 码 为 15 位 或 18 位 。15 位 的 以 xxxxxxYYMMddxxx 形式 出 现 ， 前 六 位 表示 
地 区 ，YY 表示 年 份 ，MM 表示 月 份 ，dd 表示 天 数 ， 接 着 的 xx 表示 顺序 码 ， 最 后 的 x 表示 校 
验 码 ， 正 则 表达 式 则 为 ^[1-9Nd{5Pq{2}((O[1-9]DI(10111|12))(([0-2][1-9])l10|20|30|31)d{2}$。18 
位 的 以 xxxxxxYYYYMMddxxxx 形式 出 现 ， 年 份 是 四 位 的 ， 顺 序 码 是 三 位 的 ， 而 且 校 验 码 可 
以 取 x 或 了 ,正则 表达 式 为 ^[1-9]\d{5}(18|19|([231\q)Nd{2}((0[1-9])I(10|11|12)C([0-2][1- 
9])|10|20|30|31)\qd{3}[0-9Xx]$8， 最 后 综合 为 (^[1-9]\d{5}(18|19|([23]\d)) a{2}((0[1-9])|(10|11|12)) 
(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$)IC[1-9N\d{5}\d{2}(CO[1-9])I(10|11|12))C[0-2][1-9])|10|20| 
30|31)\d{2}$)。 


>>> rT = £""(TL-9I NaS}[121\NdA{3}(0[1 -9111012]) (0{1-9]1[12100-9)13[01]) \at3 
: }[0-9xx])$" 

>>> result = re.findall(r, '43052419020202000x') 

>>> result 

[('43052419020202000x', '02°', '02')] 


5. 邮 政 编码 
中 国 的 邮政 编码 是 6 位 ， 相 比 来 说 它 的 正则 表达 式 比较 简单 ， 为 [1-91N\d{5}(?N\d) 。 
>>> test = "12343 234532 34533 532345"™ 


>>> result = re.findall('[1-9]\d{5} (?!\d)',test) 
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六 >> result 


I"234532", "532345”] 


6 .空白 正则 表达 式 


在 文本 处 理 中 常常 需要 进行 删除 空白 行 、 删 除 行 首尾 空白 等 操作 。 空 白 行 的 正则 表达 式 
为 ms* ， 首 尾 空白 字符 的 正则 表达 式 为 ^\s*hNs*$ 或 (^\s*)|Qs*$)。 


> ces 好 好 学 习 正 则 表达 式 对 你 进行 某 些 数据 正确 与 否 分 析 显 得 


. .: 很 重要 的 
>>> result = re.subl('\s* 


>>> result 


i 证人 SEE) 


"好 好 学 习 正 则 表达 式 对 你 进行 某 些 数据 正确 与 否 分 析 显 得 很 重要 的 
常用 正则 表达 式 就 介绍 到 这 里 ， 读 者 可 以 根据 自己 的 开发 需要 进行 相应 的 正则 表达 式 的 


总 结 和 收藏 ， 以 便于 后 续 的 开发 引用 。 


1 2 .4 本章 小 结 


正则 表达 式 re 模块 在 Python 中 虽然 体积 不 大 ， 但 是 地 位 非常 重要 。Python 的 re 模块 功 


能 只 有 一 个 一 一 过滤， 从 目标 中 过 滤 出 所 需 的 数据 。 通 过 函数 组 合 ， 可 以 从 字符 串 中 过 滤 出 


任何 特征 的 数据 。 
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第 13 章 
< 网 络 编程 > 


网 络 编程 属于 Python 非常 重要 的 内 容 ， 我 们 使 用 Python 进行 项 目 实战 开发 时 无 不 涉及 
网 络 编程 。Python 提供 网 络 底层 接口 的 主要 来 自 socket 模块 ， 而 且 适 用 于 各 种 主流 系统 平 
台 。 当 然 某 些 特 性 的 调用 可 能 会 使 用 操作 系统 的 socket APIs 进行 。 
本 章 的 主要 内 容 是 : 
@ 网络 编程 理论 : 通过 对 网 络 协议 、IP 地 址 和 端口 、socket 的 讲述 来 增强 对 网 络 知识 
的 了 解 ， 明 白 网 络 通信 是 如 何 进行 操作 的 。 
@ TCP: 讲述 TCP， 用 示例 演示 如 何 实现 TCP 服务 端 及 客户 端 ， 完 成 对 网 络 之 间 数 据 
流 的 传输 。 
@ UDP: 讲述 UDP， 用 示例 演示 如 何 实现 UDP 服务 端 及 客户 端 ， 完 成 基于 UDP 网 络 
数据 的 传输 。 


网 络 编程 理论 基础 


网 络 编程 的 理论 基础 是 网 络 通信 【在 一 系列 网 络 协议 中 进行 ) 。TCPAP 协议 可 以 说 是 我 
们 最 为 熟知 的 网 络 协议 。 


13.1.1 ”网络 协议 

网 络 协议 是 计算 机 网 络 数据 进行 彼此 交换 而 建立 起 的 规则 、 标 准 或 约定 的 集合 。 通 俗 地 
说 就 是 计算 机 网 络 中 设备 彼此 之 间 交 流 的 方式 ， 正 如 我 们 交流 使 用 的 普通 话 ， 就 是 一 种 网 络 
协议 。 网 络 协议 由 3 部 分 组 成 : 语义、 语法、 时序。 其中， 语义 用 来 解释 控制 信息 每 个 部 分 
的 意义 ;语法 是 用 户 数据 与 控制 信息 的 结构 与 格式 ， 以 及 数据 出 现 的 顺序 ， 时 序 是 对 事件 发 
生 顺 序 的 详细 说 明 。 可 以 这 样 形象 地 描述 : 语义 表示 要 做 什么 ， 语 法 表示 要 怎么 做 ， 时 序 表 
示 做 的 顺序 。 


基于 网 络 节点 之 间 联 系 的 复杂 性 ， 在 制定 网 络 协议 时 ， 会 通过 一 些 层次 结构 来 简化 彼此 
之 间 的 联系 。 国 际 标准 化 组 织 (ISO) 在 1978 年 提出 了 “开放 系统 互联 参考 模型 ”， 即 著名 
的 OSIURM 模型 (Open System Interconnection/Reference Model) 。 它 将 网 络 协议 划分 为 七 
层 ， 而 上 依次 为 : 物理 层 (Physics Layer) 、 数 据 链 路 层 (Data Link Layer) 、 网 络 
(Network Layer) 、 传 输 层 (Transport Layer) 、 会 话 层 (Session Layer) 、 表 示 
(Presentation Layer) 、 应 用 层 (Application Layer) ， 具 体 如 表 13-1 所 示 。 


酒 蕊 


表 13-1 计算 机 网 络 协议 OSI/RM 模型 


层次 名 称 功能 描述 
第 7 层 应 用 层 负责 网 络 中 应 用 程序 与 网 络 操作 关系 之 间 的 联系 ， 例 如 : 建立 和 结 
(Application ) 束 使 用 者 之 间 的 连接 ， 管 理 建立 相互 连接 使 用 的 应 用 资源 
第 6 层 表示 层 用 于 确定 数据 交换 的 格式 ， 它 能 够 解决 应 用 程序 之 间 在 数据 格式 上 
(Presentation ) 的 差异 ， 并 负责 设备 之 间 所 需要 的 字符 集 和 数据 的 转换 
第 5 层 会 话 层 (Session) 用 户 应 用 程序 与 网 络 层 接 口 ， 它 能 够 建立 与 其 他 设备 的 连接 (会 
话 ) ， 并 上 且 能 够 对 会 话 进行 有 效 的 管理 
第 4 层 传输 层 提供 会 话 层 和 网 络 层 之 间 的 传输 服务 ， 该 服务 从 会 话 层 获 得 数据 ， 
(Transport) 必要 时 对 数据 进行 分 割 ， 然 后 将 数据 传递 到 网 络 层 ， 并 确保 数据 能 
正确 无 误 地 传送 到 网 络 层 


第 3 层 网 络 层 (Network) ”| 能 够 将 传输 的 数据 封包 ， 然 后 通过 路 由 选择 、 分 段 组 合 等 控制 ， 将 
信息 从 源 设备 传送 到 目标 设备 
第 2 层 数据 链 路 层 (Data ”| 主要 是 修正 传输 过 程 中 的 错误 信号 ， 它 能 够 提供 可 靠 的 通过 物理 介 
Link) 质 传输 数据 的 方法 
第 1 层 物理 层 (Physical) ”| 利用 传输 介质 为 数据 链 路 层 提供 物理 连接 ， 规 范 了 网 络 硬件 的 特 
性 、 规 格 和 传输 速度 

网 络 协议 中 最 为 重要 的 无 非 是 TCP/IP 协议 ， 它 是 互联 网 的 基础 协议 ， 没 有 它 ， 就 无 法 
上 网 聊天 看 视频 了 。 当 然 ， 除 了 这 些 还 有 UDP、ICMP、HTTP、DNS 协议 等 ， 如 果 想 了 解 更 
多 的 内 容 ， 建 议 查看 相关 协议 文档 。 

TCP/IP 协议 不 是 TCP 和 了 P 协议 的 合 称 ， 是 因特网 整个 网 络 TCP/IP 协议 簇 。 这 个 协议 簇 
的 体系 结构 并 不 完全 符合 OSI 七 层 参考 模型 ， 由 4 个 层次 组 成 : 网 络 接 口 层 、 网 络 层 、 传 输 
民 、 应 用 层 。 与 OSI 模型 对 应 关系 如 表 13-2 所 示 。 


表 13-2 TCP/IP 结构 与 OSI 模型 结构 对 应 关系 


TCP/IP 0S1 
应 用 层 
应 用 层 〈Telnet、FTP、HTTP、DNS、SNMP 和 SMTP 等 ) 表示 层 
会 话 层 
传输 层 (TCP 和 UDP) 传输 层 
网 络 层 (IP、ICMP 和 IGMP) 网 络 层 
网 络 接口 层 ( 以 太 网 、 令 牌 环 网 、FDDI、IEE802.3 等 ) 区 据 禾 路 层 
物理 层 
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至 于 每 层 的 功能 及 其 包含 的 协议 定义 ， 请 查找 相关 资料 进行 了 解 。 


13.1.2 1IP 地 址 与 端口 


IP (Intemet Protocol) 是 计算 机 网 络 相 互 连 接 进行 通信 而 设计 的 协议 ， 位 于 TCP/IP 协议 
簇 结 构 体 系 网 络 层 中 。 它 是 所 有 计算 机 网 络 实现 相互 通信 的 一 套 规则 ， 规 定 了 计算 机 在 因 特 
网 上 进行 通信 时 应 当 遵守 的 规则 。 因 此 ， 任 何 计 算 机 系统 只 要 遵守 IP 协议 就 可 以 与 因特网 互 
连 互通 。 也 正 是 如 此 ， 因 特 网 才 得 以 迅速 发 展 成 为 世界 上 最 大 的 、 开 放 的 计算 机 通信 网 络 。 
卫 协议 也 可 以 叫 作 “因特网 协议 ”。 

IP 协议 是 利用 IP 地 址 在 主机 之 间 传 递 信息 ， 这 是 因特网 能 够 运行 的 基础 。 因 特 网 每 一 
台 主 机 都 有 一 个 唯一 的 IP 地 址 。IP〈( 指 IPv4) 地 址 的 长 度 为 32 位 (共有 2^32 个 了 地 
址 ) ， 分 为 4 段 ， 每 段 8 位 ， 用 十 进 制 数字 表示 ， 每 段 数字 范围 为 0 一 235， 段 与 段 之 间 用 名 
点 隔 开 ， 比 如 172.168.1.100。IP 地 址 由 网 络 标识 号 码 与 主机 标识 号 码 两 部 分 组 成 ， 因 此 IP 
地 址 可 分 为 两 部 分 ， 一 部 分 为 网 络 地 址 ， 另 一 部 分 为 主机 地 址 。IP 地 址 分 为 A、B、C、D、 
E 五 类 ， 适 用 的 类 型 分 别 为 大 型 网 络 、 中 型 网 络 、 小 型 网 络 、 多 目地 址 、 备 用 ， 常 用 的 是 B 
和 C 两 类 。 

可 以 在 网 络 和 共享 中 心 打开 “本 地 连接 一 详细 信息 ”查看 ， 如 图 13.1 所 示 。 


网 绝 连 接 详细 信息 D3 


网 络 连 接 详细 信息 加 ) 
属性 值 = 
连接 特定 的 DRS 后 绢 | 
指 述 Broadcom NetXtreme Gigabit Et 
物理 地 址 AC-87-A3-2F-F1-A4 
已 启用 DHCP 是 
IPv4 地 址 172. 168. 1. 100 
IPv4 子 网 挤 码 255. 255. 255.0 和 
获得 租约 的 时 间 2018 年 4 月 13 日 18:21:35 本 
租约 过 期 的 时 间 2018 年 4 月 14 日 1:21:36 
ITPv4 默认 网 关 172.168.1.1 
IPv4 DHCP 服务 器 172.168.1.1 
IFv4 DNS 服务 器 192.168.1.1 
172. 168.1.1 
IPv4 WINS 服务 器 I 
已 启用 NetBIOS ove.. 
连接 -本 地 IFv6 地 址 。 fe80: :1978:4443:6452: a49%15 
I 区 黑 认 网关 
4 mm ] 上 
| 


图 13.1 了 地 址 查看 方式 一 
也 可 以 输入 cmd 进入 控制 台 ， 然 后 输入 ipconfig 查看 ， 如 图 13.2 所 示 。 
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画 C\Windows\system32\cmd.exe ii 


图 13.2 ” 卫 地 址 查看 方式 二 


IP 地 址 使 用 纯 数字 的 话 不 便于 记忆 ， 通 常会 使 用 主机 名 来 代替 IP 地 址 ， 比 如 输入 
baidu.com 就 可 以 访问 百度 了 ， 至 于 baidu.com 是 如 何 解 析 到 IP 地 址 的 就 涉及 前 面 所 讲 的 
DNS 协议 了 。 

端口 〈 既 可 是 指 硬件 接口 ， 也 可 是 TCP/TIP 协议 中 的 端口 ) 是 计算 机 与 外 界 进行 通信 交 
流 的 出 口 。 这 里 讲述 的 端口 是 指 网 络 中 进行 通信 的 通信 协议 端口 ， 是 一 种 抽象 的 软件 结构 ， 
包含 一 些 数据 结构 和 基本 输入 输出 缓冲 区 。 端 口号 的 范围 为 0~65535， 任 何 由 TCP/IP 提供 的 
服务 皆 基 于 1~1023 之 间 的 端口 号 进行 通信 ， 由 IANA 分 配 管理 。 其 中 ， 低 于 255 的 端口 号 
保留 ， 用 于 公共 应 用 ; 255 到 1023 的 端口 号 用 于 特殊 应 用 ; 高 于 1023 的 端口 号 称 为 临时 端 
口号 ， 常 用 于 软件 服务 。 

常用 的 保留 TCP 端口 号 有 HTTP 80、FTP 20/21、Telnet 23、SMTP 25、DNS 53 等 。 


13.1.3 socket 套 接 字 

socket 是 网 络 通信 端口 的 一 种 抽象 ， 具 体 来 说 就 是 两 个 程序 通过 一 个 双向 通信 连接 实现 
数据 的 交换 ， 而 这 个 连接 的 一 端 就 是 一 个 socket。socket 也 称 作 “ 套 接 字 ”， 用 于 描述 IP 地 
址 和 端口 ， 是 一 个 通信 链 的 句柄 ， 可 以 用 来 实现 不 同 计算 机 之 间 的 通信 。 可 以 形象 地 描述 
socket 为 一 个 多 孔 插 座 ， 不 同 编号 的 插座 得 到 不 同 的 服务 。 

socket 是 应 用 层 与 TCP/IP 协议 簇 通 信 的 中 间 软 件 抽象 层 ， 是 架 在 应 用 层 与 传输 层 之 间 的 
桥梁 。socket 在 TCP/IP 协议 簇 中 的 位 置 示意 图 如 13.3 所 示 。 
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图 13.3 socket 在 TCP/IP 协议 簇 中 的 位 置 示意 图 


在 Python 中 ， 可 通过 socket 模块 (提供 了 一 个 底层 的 C API) 实现 网 络 通 信 。 从 该 模块 
源码 可 以 看 出 ， 它 提供 了 一 系列 函数 、 特 殊 对 象 、 类 常量 等 。 其 中 ，socket 类 是 该 模块 中 最 


为 重要 的 概念 。 


socket 类 定义 如 下 : 


class socket( socket.socket): 
def _init (self, family=AF _ INET, type=SOCK _ STREAM, proto=0, fileno=None): 


pass 


从 定义 来 看 ，socket 类 是 _socket.socket 的 子 类 ， 根 据 给 定 的 地 址 簇 、 套 接 字 类 型 和 协议 


号 创建 一 个 新 的 socket。 套 接 字 是 通过 地 址 簇 (address family， 控 制 所 
和 套 接 字 类 型 (socket type， 控 制 传输 层 协议 ) 两 个 主要 属性 来 控制 如 何 


] OSI 网 络 层 协 议 ) 


发 送 数据 的 。 


套 接 字 地 址 簇 的 可 取 值 有 AF_INET (默认 ) 、AF INIET6、AF_UNIX、AF CAN 或 


AF RDS 等 。 常 / 


的 是 AF_INET， 用 于 IPv4 Intemet 寻 址 。AF _INIET6 


用 于 IPv6 Internet 寻 


址 。AF_UNIX 是 UNIX 域 套 接 字 (UDS) 的 地 址 徐 ， 是 一 种 POSIX 兼容 系统 上 的 进程 间 通 


信 协 议 。UDS 的 实现 通常 允许 操作 系统 直接 从 进程 向 进程 传递 数据 而 不 需要 通过 网 络 栈 ， 因 


此 这 比 AF_INET 更 为 高 效 。 
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套 接 字 类 型 可 以 为 SOCK_ STREAM (默认 ) 、SOCK DGRAM、SOCK RAW 或 者 其 他 


SOCK 中 的 某 个 常量 。SOCK STREAM 对 应 传输 控制 协议 “TCP) 。TCP 传输 需要 握手 或 
其 他 设置 过 程 ， 因 此 能 够 确保 每 条 消息 只 传送 一 次 ， 而 且 是 按 正确 顺序 传送 ， 从 而 增加 了 可 
靠 性 ， 不 过 会 引入 额外 的 延迟 。UDP 则 相反 ， 传 送 没 有 顺序 ， 并 且 可 能 多 次 传送 或 者 不 传 
送 ， 适 用 于 对 顺序 不 太 重要 的 协议 或 者 用 于 广播 。 


由 socket 类 创建 的 socket 对 象 具 有 一 系列 方法 及 属性 。 以 变量 sock 作为 返回 对 象 进行 总 
结 ， 如 表 13-3 所 示 。 


表 13-3 ” 套 接 字 方 法 /属性 及 其 描述 
名 称 描述 
服务 器 套 接 字 方 法 
|sockbindo -| 将 地 址 (主机 名 、 端 口号 对 ) 绑 定 到 套 接 字 上 
流明 并 启动 TCP 监听 器 
sock.accept() 受 TCP 客户 端 连接 ， 一 直 等 待 直到 连接 到 达 〔 阻 塞 ) 
客户 端 套 接 字 方法 


a 展 版 本 ， 此 时 会 以 错误 码 的 形式 返回 问题 ， 而 不 是 抛 出 一 个 


sock.connect_ex() 


普通 的 套 接 字 方法 
sockxrecv into0) 接收 TCP 消息 到 指定 的 缓冲 区 

sock.send() 发 送 TCP 消息 

sock.sendallO 完整 地 发 送 TCP 消息 
sock.recvfrom() 接收 UDP 消息 

sock.recvfrom into0) 接收 UDP 消息 到 指定 的 缓冲 区 
Sock.sendto0) 发 送 UDP 消息 
sock.getpeername() 连接 到 套 接 字 TCP》 的 远程 地 


sock.getsockname() 


Sock.getsockoptO) 返回 给 定 套 接 字 选 项 的 值 
sock.shutdown() 关闭 连接 

sock.share() 复制 套 接 字 并 准备 与 目标 进程 共享 
sock.close() 关闭 套 接 字 


到 未 


( 续 表 ) 


名 称 描述 
sock.detach() 在 未 关闭 文件 描述 符 的 情况 下 关闭 套 接 字 ， 返 回 文件 描述 符 
sock.ioctl0 控制 套 接 字 的 模式 〈 仅 支持 Windows) 


面向 阻塞 的 套 接 字 方 法 

sock.setblocking() 设置 套 接 字 的 阻塞 或 非 阻塞 模式 
Sock.gettimeoutO 获取 阻塞 套 接 字 操 作 的 超时 时 间 
面向 文件 的 套 接 字 方 法 

sock.fileno() 套 接 字 的 文件 描述 符 


sock.makefile() 创建 与 套 接 字 关联 的 文件 对 象 
数据 属性 


socke family 


socket 模块 除了 socket 类 外 ， 还 有 一 些 功能 函数 、 常 量 及 异常 。 这 里 仅 就 一 些 常 用 的 功 
能 函数 做 一 个 介绍 。 

(1) socket.socketpair0 函 数 根据 给 定 的 地 址 得、 套 接 字 类 型 和 协议 号 创建 一 对 已 连接 的 
socket 对 象 。 


(2 ) socket'create_connection0 函 数 创建 一 个 TCP 服务 监听 网 络 地 址 (一 维 数组 ( 主 
机 、 端 口 ) ) 的 连接 ， 并 返回 套 接 字 对 象 。 这 是 比 socket.connect0) 更 为 高 级 的 函数 ， 如 果 主 
机 是 一 个 非 数字 的 主机 名 ， 就 将 试图 解决 AF INET 和 AF_INET6， 然 后 尝试 连接 所 有 可 能 的 
地 址 ， 直 到 连接 成 功 。 这 使 它 易于 编写 客户 IPv4 和 IPv6 是 兼容 的 。 

(3 ) socket.SocketType 为 套 接 字 对 象 类 型 的 Python 类 型 对 象 ， 等 同 于 
type(socket(...))。 

(4) socket.getaddrinfo0) 函 数 将 主机 /端口 参数 转换 为 五 元 组 序列 ， 包 含 创 建 连接 该 服务 套 
接 字 的 所 有 参数 。 参 数 host 和 port 为 必 选 ， 参 数 type、proto、flags 皆 为 0。 


>>> import socket 

>>> socket .getaddrinfo("baidu.com", port=80) 

[(<AddressFamily.AF INET: 2>, 0, 0, '', ('220.181.57.216', 80)), 
(<AddressFamily.AF INET: 2>, 0, 0, '', ('123.125.115.110', 80))] 


从 返回 结果 可 以 很 清楚 域名 所 对 应 的 人 地 址 ， 不 过 也 可 以 得 知 百 度 域名 对 应 的 IP 有 两 
多 函数 返回 的 五 元 组 结构 如 下 : 
(family, type, proto, canonname, sockaddr) 


举例 来 看 : 


2 
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>>> socket .getaddrinfo ("example.org", 80, proto=socket .IPPROTO TCP) 

[(<AddressFamily.AF INET: 2>, 0，6r '', ('93.184.216.34", 80))] 

从 上 面 两 个 实例 可 以 看 出 ，sockaddr 在 IPv4 上 是 一 个 二 元 组 (addess, port)， 在 IPv6 上 是 
一 个 四 元 组 (address, port flow into, scope 1d)。 
(5) socket.getfqdn0 函 数 返回 限制 域名 名 称 。 如 果 参 数 name 为 省 略 或 为 空 ， 就 解释 为 本 
地 主机 。 代 码 如 下 : 

>>> socket .getfqdn() 


'DESKTOP-B97M55J"' 


>>> socket .getfqdn('baidu.com') 


"baidu.com' 
>>> socket .getfqdn('123.115.57.216') 
Lo 


(6) socket.gethostbyname0) 函 数 将 主机 名 转换 为 IPv4 地 址 格式 。 参 数 hostname 既 可 为 主 
机 名 ， 也 可 为 IPv4 地 址 ， 为 IPv4 地 址 时 返回 不 变 。 


>>> socket .gethostbyname ('baidu.com') 

TS 

>>> Socket .gethostbyname ('123.125.115.1107) 

| 

(7) socket.gethostbyname_ex() 将 主机 名 转换 为 IPv4 地 址 ， 返 回 一 个 三 元 组 (hostname， 
aliaslist，ipaddrlist)， 其 中 aliaslist 列表 可 能 为 空 ) 的 蔡 代为 同一 地 址 ， 主 机 名 可 能 对 应 
ipaddrlist 的 元 素 不 只 一 个 。 

>>> socket .gethostbyname ex('baidu.com') 

{baitdu.com's [he "123.125.115110% "220, 181Le57.216]) 


从 代码 可 以 看 出 ， 主 机 baidu.com 对 应 了 两 个 卫 地 址 。 
(8) socket.gethostname0O 返 回 包含 机 器 主机 名 的 字符 串 ， 执 行 于 Python 解析 器 中 。 


>>> Socket .gethostname () 
' DESKTOP-B97M55J" 


更 多 情况 可 查看 表 13-4， 这 个 表格 对 整个 socket 模块 的 属性 、 异 常 、 方 法 做 了 小 结 。 
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表 13-4 ”socket 模块 属性 、 异 常 、 方 法 及 其 描述 


AF UNIX、 AF INET、 AF INET6 、 

AF NETLINK 、AF TIPC 

SO_STREAM、 SO DGRAM 套 接 字 类 型 (TCP= 流 ，UDP= 数 据 报 ) 
指示 是 否 支 持 IPv6 的 布尔 标记 


Python 中 支持 的 套 接 字 地 址 家 族 


套 接 字 相 关 错 误 
主机 和 地 址 相关 错误 
地 址 相关 错误 
timeout 超时 时 间 
方法 


以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 〈 可 选 ) 创建 一 个 套 接 字 
对 象 


_ 以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 〈 可 选 ) 创建 一 对 套 接 字 
SocketpairO 对 象 


| create connectionO0 | 常规 函数 ， 接 收 一 个 地 址 (主机 名 ， 端 口号 对， 返回 套 接 字 对 象 
以 一 个 打开 的 文件 描述 符 创 建 一 个 套 接 字 对 象 
通过 套 接 字 启 动 一 个 安全 套 接 字 层 连接 ， 不 执行 证 书 验 证 


getaddrinfo() 获取 一 个 五 元 组 序列 形式 的 地 址 信息 


SocketO 


|gemameinfo0 | 给 定 一 个 套 接 字 地 址 ， 返 回 ( 主 机 名 ， 端 口号 ) 二 元 组 

gedaan0 | 返回 完整 的 域名 
[gethostbyname0 | 将 一 个 主机 名 映射 到 它 的 人 地 址 

gethostbyname0 的 扩展 版 本 ， 返 回 主机 名 、 别 名 主机 集合 和 到 地 址 
列表 


gethostbyname_exO 


将 一 个 人 P 地 址 映射 到 DNS 信息 ， 返 回 与 gethostbyname_exO 相 同 的 
三 元 组 
getprotobyname() 将 一 个 协议 名 〈 如 'tcp') 映射 到 一 个 数字 
将 一 个 服务 名 映射 到 一 个 端口 号 ， 或 者 反 过 来 ， 对 于 任何 一 个 函数 来 
说 ， 协 议 名 都 是 可 选 的 
ntohlO/ntohsO 将 来 自 网 络 的 整数 转换 为 主机 字 节 顺序 
htonlO/htonsO 将 来 自主 机 的 整数 转换 为 网 络 字 节 顺 序 

将 人 P 地 址 八进制 字符 串 转换 成 32 位 的 包 格式 ， 或 者 反 过 来 〈 仅 
于 IPv4 地 址 ) 
将 他 地 址 字符 串 转换 成 打包 的 二 进 制 格式 ， 或 者 反 过 来 〈 同 时 适 
于 IPv4 和 IPv6 地 址 ) 
以 秒 〈 浮 点 数 ) 为 单位 返回 默认 套 接 字 超 时 时 间 ， 以 秒 ( 浮 点 数 ) 单 
位 设置 默认 套 接 字 超时 时 


gethostbyaddrO 


getservbyname()/getservbyport() 


inet_atonO/inet ntoa0) 


inet_pton(O/inet_ntopO 


getdefaulttimeout()/setdefaulttimeout() 
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接 下 来 将 利用 socket 模块 处 理 网 络 程序 。 


1 引 . 使 用 Tcp 的 服务 器 与 客户 端 


TCP (Transmission Control Protocol， 传 输 控制 协议 ) 是 一 种 面向 连接 的 、 可 靠 的 、 基 于 
字 节 流 的 传输 层 通信 协议 ， 由 下 TF 的 RFC 793 定义 。 位 于 IP/TCP 模型 中 的 传输 层 是 处 在 卫 
层 之 上 、 应 用 层 之 下 的 中 间 层 ， 因 此 数据 传 出 必须 经 过 也 层 。 

从 TCP 定义 来 看 ，TCP 协议 是 一 种 可 靠 的 协议 ， 用 于 在 不 可 靠 的 互联 网 络 上 提供 可 靠 、 
端 对 端的 字 节 流传 输 服务 。 

当 应 用 层 向 TCP 层 发 送 用 于 网 间 传 输 、 用 8 位 字 节 表示 的 数据 流 ，TCP 则 把 数据 流 分 割 
成 适当 长 度 的 报 文 段 ， 然 后 将 离散 的 报 文 组 装 成 比特 流 。 为 了 保障 数据 的 可 靠 传输 ， 会 对 从 
应 用 层 传送 到 TCP 实体 的 数据 进行 监管 ， 并 提供 了 重 发 机 制 和 流 控制 。 


13.2.1 TCP 工作 原理 

TCP 为 了 保证 数据 不 发 生 丢 失 ， 对 传输 数据 按 字 节 进行 了 编号 ， 编 号 的 目的 是 为 了 保证 
传送 到 接收 端的 数据 能 够 按 序 接收 。 接 收 端 会 对 已 经 接收 的 数据 发 回 一 个 确认 。 若 发 送 端 在 
规定 时 间 内 未 收 到 有 编号 的 数据 ， 则 将 重新 传送 前 面 的 数据 。 

TCP 当然 并 不 会 像 我们 一 样 使 用 顺序 的 整数 作为 数据 包 的 编号 ， 而 是 通过 一 个 计数 器 记 
录 发 送 的 字 节 数 。 举 个 例子 ， 如 果 数 据 流 被 切割 为 几 个 包 ， 其 中 某 个 包 大 小 为 1024 字 节 ， 序 
号 为 3600， 那 么 下 一 个 数据 包 的 序号 就 是 4624。 这 说 明 网 络 栈 无 须 记 录 数 据 流 是 如 何 分 割 成 
数据 包 的 。 而 且 TCP 初始 序列 号 是 随机 选择 的 ， 这 样 可 以 避免 TCP 序号 易于 猜测 而 伪造 数 
据 进 行 欺骗 或 攻击 。 

TCP 无 须 按照 数据 包 依 次 发 送 ， 可 以 一 次 性 发 送 多 个 数据 包 ， 同 时 通过 发 送 方 传输 的 数 
据 量 大 小 进行 减缓 或 暂停 ， 即 所 谓 的 流量 控制 。TCP 如 果 发 现 数据 包 丢弃 ， 就 会 减少 每 秒 发 
送 的 数据 量 。 

根据 前 面 所 讲 的 socket 模块 ， 我 们 如 何 进行 TCP 通信 呢 ? 使 用 TCP 进行 通信 首先 要 从 
服务 器 开始 ， 先 初始 化 Socket， 然 后 绑 定 (bind》 端 口 ， 对 端口 进行 监听 〈listen) ， 调 
accept 阻塞 ， 等 待 客户 端 连接 。 这 时 如 果 某 个 客户 端 初始 化 一 个 Socket， 然 后 连接 服务 器 
(connect) ， 如 果 连 接 成 功 ， 那 么 客户 端 与 服务 器 端的 连接 就 建立 了 。 客 户 端 发 送 数据 请 
求 ， 服 务 器 端 接收 请 求 并 处 理 请 求 ， 然 后 把 回应 数据 发 送 给 客户 端 ， 客 户 端 读 取 数 据 ， 最 后 
关闭 连接 ， 一 次 交互 结束 。 

上 述 流 程 如 图 13.4 所 示 。 
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accept 


recv 


a 


close 


图 13.4 ”TCP 通信 模式 


13.2.2 TCP 服务 器 的 实现 

在 使 用 Python 进行 网 络 编程 时 ， 大 部 分 的 网 络 通信 都 是 基于 TCP 的 ， 当 然 也 有 可 能 
F 13.3 节 要 讲 的 UDP。 

根据 之 前 所 学 的 ， 我 们 将 使 用 socket 模块 相关 知识 来 实现 一 个 简易 的 TCP 服务 器 。 首 先 
创建 一 个 TepServerpy 文件 ， 输 入 例子 13.1 所 示 的 代码 。 
例子 13.1 TCP 服务 器 


01 import socket 


上 


02 from time import ctime 
03 

04 HOST = 'localhost' 

05 PORT = 5008 

06 BUF SIZE = 1024 

07 ADDRESS = (HOST, PORT) 


08 

Q9 二 name == '" main ': 

10 # 新 建 socket 连接 

LL Server socket = socket.socket (socket.AF INET, socket.SOCK STREAM) 
看 # 将 套 接 字 与 指定 的 ip 和 端口 相连 

LS Server socket.bind (ADDRESS) 
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14 # 启动 监听 ， 并 将 最 大 连接 数 设 为 5 


LS server socket.listen(5) 

16 print ("[***] 正在 监听 : %$s:%d" % (HOST, PORT)) 

17 # setsocketopt () 函数 用 来 设置 选项 ， 结构 是 setsocketopt (level, optname, 
value) 


18 # level 定义 了 哪个 选项 将 被 使 用 ， 通 常 是 SoL_ socKET， 意 思 是 正在 使 用 的 socket 选 


项 。 

Kk: # socket .SO_REUSEADDR 表示 socket 关闭 后 ， 本 地 端 用 于 该 socket 的 端口 号 立刻 就 
可 以 被 重用 。 

20 # 通常 来 说 ， 只 有 经 过 系统 定义 一 段 时 间 后 才能 被 重用 。 

2 server socket.setsockopt (socket .SOL SOCKET, socket.SO REUSEADDR, 1) 

22 while True: 

23 print (u' 服 务 器 等 待 连接 ...') 

24 # 当 有 连接 时 ， 将 接收 到 的 套 接 字 存 到 client_sock 中 ， 远 程 连接 细节 保存 到 address 中 。 

25 client sock, address = server socket.accept() 

26 print (u' 连接 客户 端 地 址 : '，address) 

有 2 这 while True: 

28 # 打印 客户 端 发 送 的 消息 

全 data = client sock.recv(BUF SIZE) 

30 if not data or data.decode('utf-8') == 'END': 

3 break 

32 print ("来 自 客户 端 信息 : %$s" % data.decode ('utf-8')) 

33 print ("发 送 服务 器 时 间 给 客户 端 %s" % ctime ()) 

34 EEw> 

35 ## 发 送 时 间 

36 client sock.send(bytes(ctime(), 'utf-8°')) 

37 except KeyboardIinterrupt: 

38 print ("用 户 取消 ") 

9 # 关闭 客户 端 socket 

40 client sock.close() 

41 # 关闭 socket 

42 server socket.close() 


代码 注释 得 很 明白 ， 这 里 就 不 做 解释 了 。 运 行程 序 ， 会 得 到 如 图 13.5 所 示 的 结果 。 


画 C\WINDOWS\system32\cmd.exe - python.。 一 口 x 
:\>python TcpServer. py 
[eer] 匡 在 监听 : localhost:5008 


务 器 寺 侍 连接 


图 13.5 TcpServer.py 运行 结果 


运 
TcpServerpy 的 运行 结果 说 明 TCP 服务 器 已 经 启动 ， 等 待 客户 端的 连接 。 接 着 我 们 将 对 


客户 端 进行 实现 。 
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13.2.3 TCP 客户 端的 实现 


为 了 便于 理解 TCP 连接 ， 我们 使 用 TepServerpy 提供 端口 和 服务 。 在 文件 TcepServer.py 


同 目录 下 创建 一 个 TcpClient.py 文件 ， 输 入 如 例子 13.2 所 示 的 代码 。 
例子 13.2 TCP 客户 端 


01 import socket 
02 import sys 


03 

04 HOST = 'localhost' 

05 PORT = 5008 

06 

/A name == "_ main ': 

08 Ey 

05 Sock = socket.socket (socket.AF INET, socket.SOCK STREAM) 

10 except socket.error as err: 

1 print ("创建 socket 实例 失败 ") 

12 print ("原因 : %s" % str(err) ) 

3 sys.exit(); 

i 

15 print (u"socket 实例 创建 成 功 !") 

16 a 

入 sock.connect ( (HOST, int (PORT))) 

18 print ("Socket 已 经 连接 上 目标 主机 : %s ， 连 接 的 目标 主机 端口 : ss" % 
(HOST, PORT) ) 

19 sock.shutdown (2) 

20 except socket.error as err: 

公理 print ("连接 主机 : ss 端口 : ss 失败 ! " % (HOST, PORT) ) 

22 print ("原因 : %s" % str(err)) 

23 sys.exit(); 


这 里 使 用 的 主机 和 端口 与 TepServerpy 相对 应 ， 便 于 测试 连接 情况 ， 运 行 


所 示 。 


画 C\WINDOWS\system32\cmd.exe - python TcpServ- 


BY ton TcpServer. p 
[ht 上 天 内 机: iocaipzst:5008 


人 “C127..0.0. 1 , 53434) 


E:\>python Tc 和 py 
ocket 安 例 m 二 
上 egsSt 忆 和 连接 目标 主机 ， localhost ， 连 接 的 目标 主机 端口 


E:\> 


图 13.6 TcpClientpy 运行 结果 


我 们 可 以 修改 TepClientpy， 通 过 用 户 输入 TCP 服务 器 地 址 和 端口 进行 测试 连接 。 新 建 
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结果 如 图 


13.6 


te 


文件 TcpClientEx.py， 输 入 如 例子 13.3 所 示 的 代码 。 
例子 13.3 ”测试 连接 


01 import socket 
02 import sys 


03 

04 if name = " main ': 

0 4 地 

06 sock = socket.socket (socket.AF INET, socket .SOCK STRERM) 

07 except socket.error as err: 

08 print ("创建 socket 实例 失败 ") 

09 print ("原因 : %s" % str(err)) 

10 sys.exit(); 

LE 

12 print ("socket 实例 创建 成 功 !") 

j 

14 HOST = input (u" 输 入 目标 主机 : ") 

15 PORN = input ("输入 目标 主机 端口 : ") 

16 

3 

18 sock .connect ( (HOST， int (PORN))) 

19 print ("Socket 已 经 连接 上 目标 主机 : %s ， 连 接 的 目标 主机 端口 : ss" % (HosT， 
PORN) ) 

20 sock.shutdown (2) 

21 except socket.error as err: 

22 print ("连接 主机 : %s 端口 : ss 失败 ! " % (HOST，PORN) ) 

23 print ("原因 : %s" % str(err) ) 

24 sys.exit(); 


运行 结果 如 图 13.7 所 示 ， 此 时 需要 输入 目标 主机 localost 和 端口 5008 才 会 连接 到 主机 。 


丽 C\WINDOWS\system32\cmd.exe - python TcpServ 
[##*] 3 监听 : localhost:5008 


:C127.0.0.1, 53434) 


:C127.0.0.1 , 53461) 
接 . . - 


v 


本 


St 经 标 主机 ， 1ocalhost ， 和 连接 的 目标 主机 端口 让 


E: Dore Ye a py | 


汉服 
i 
i 5008 


a 目标 主机 : localhost ， 连 接 的 目标 主机 端口 


图 13.7 TcpClientEx.py 运行 结果 
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使 用 UDP 的 服务 器 与 客户 端 


UDP (User Datagram Protocol， 用 户 数据 报 协议 ) 是 OSI 参考 模型 中 一 种 无 连接 的 传输 
层 协 议 ， 提 供 面向 事务 的 简单 不 可 靠 信息 传送 服务 。 

跟 TCP 协议 一 样 ，UDP 在 网 络 中 用 于 处 理 数 据 包 ， 不 过 它 只 负责 将 应 用 层 的 数据 发 送 
出 去 ， 不 具备 差错 控制 和 流量 控制 功能 。 因 此 在 传送 过 程 中 如 果 数 据 出 错 就 要 由 高 层 协议 处 
理 。UDP 不 需要 具备 差错 控制 和 流量 控制 等 功能 的 开销 ， 使 得 数据 传输 效率 高 、 延 时 小 ， 适 
合用 于 对 可 靠 性 要 求 不 高 的 应 用 ， 比 如 视频 点 播 、QQ 等 。 


13.3.1 UDP 工作 原理 

UDP 使 用 底层 互联 网 协议 传送 报 文 ， 提 供 不 可 靠 的 无 连接 的 数据 包 传输 服务 。UDP 在 
IP 报 文 的 协议 号 为 17， 其 报 文 是 封装 在 IP 数据 报 中 进行 传输 的 。UDP 报 文 由 UDP 源 端 口 
字段 、UDP 目标 端口 字段 、UDP 报 文 长 度 字 段 、UDP 效 验 和 字段 以 及 数据 区 组 成 。 首 先 通 
过 端口 机 制 进行 复 用 和 分 解 ， 每 个 UDP 应 用 程序 在 发 送 数 据 报 文 之 前 必须 与 操作 系统 协商 
获取 相应 的 协议 端口 及 端口 号 ， 然 后 根据 目的 端口 号 进行 分 解 ， 接 收 端 使 用 UDP 的 效 验 进 
行 确认 查看 UDP 报 文 是 否 正 确 到 达 了 目标 主机 的 相应 端口 。 


13.3.2 UDP 服务 器 的 实现 
由 于 UDP 无 须 进 行 流量 控制 和 差错 控制 ， 因 此 UDP 服务 器 相 比 TCP 服务 器 会 简单 很 
多 。 
接 下 来 我 们 使 用 之 前 讲 的 socket 模块 来 实现 一 个 简单 的 UDP 服务 器 。 新 建 UdpServer.py 
文件 ， 输 入 例子 13.4 所 示 的 代码 。 


例子 13.4 UDP 服务 器 


01 import socket 


03 MAX SIZE = 5600 

04 +# 新 建 socket 连接 

05 sock = socket.socket (socket.AF INET, socket .SOCK DGRAM) 
06 # 绑 定 主机 和 端口 ， 主 机 为 空 表示 任意 主机 

07 sock.bind(('localhost', 8005)) 


09 while True: 

10 Print (u' 服 务 器 等 待 连接 . ..') 

11 # 当 有 连接 时 ， 将 接收 到 的 数据 存 到 qata 中 ， 远 程 连接 细节 保存 到 address 中 
1 # MAX_SIZE 表示 可 接收 最 长 为 5600 字 节 的 信息 

3 data, address = sock.recvfrom(MAX SIZE) 

14 data = data.decode() 
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Te resp = "UDP 服务 器 在 发 送 数据 " 
16 # 发 送 数据 包 


区 sock.sendto(resp.encode(), address) 


UDP 与 TCP 新 建 socket 连接 不 同 的 是 socketsocket0 第 二 个 参数 : TCP 使 
socketSOCK_ STREAM， 而 UDP 则 使 用 socketSOCK DGRAM。 上 述 代码 的 运行 结果 如 图 
13.8 所 示 。 在 网 络 传输 发 送 接收 数据 以 bytes 进行 ， 而 不 是 string， 要 不 然 会 报错 : 


TypeError: 


a bytes-like object is required, not "str” 。 因 此 在 传输 过 程 中 可 以 通过 encode0) 或 decode() 进 行 编 
码 或 解码 。 如 果 是 str 转 bytes 就 进行 编码 ， 比 如 上 面 代 码 要 发 送 resp 消息 时 必须 进行 编码 转 


成 bytes， 反 之 若是 bytes 就 通过 decode0 进 行 解 码 。 


丽 C\WINDOWS\system32\cmd.exe - python UdpSer... 
F thon er py 
民办 


图 13.8 ”UdpServer.py 运行 结 


13.3.3 UDP 客户 端的 实现 


我 们 可 以 根据 UdpServer.py 创建 一 个 客户 端 UdpClientpy， 发 送 一 些 数据 到 UDP 服务 器 


进行 验证 ， 代 码 如 例子 13.5 所 示 。 
例子 13.5 ”UDP 客户 端 


01 import socket 
02 

03 MAX SIZE = 5600 
04 +# 新 建 socket 连接 


05 sock = socket.socket (socket.AF INET, socket.SOCK DGRAM) 


06 

07 MESSAGE = "UDP 服务 器 ， 你 好 ! [握手 中 . ..]" 

08 

J 受到 name == "main ": 

10 # 输入 主机 

i HOST = input (u" 输 入 目标 主机 : ") 

12 # 输入 端口 

ma PORT = int(input (u" 输 入 目标 主机 端口 : ") ) 
14 发 送 数据 包 

15 sock.sendto (MESSAGE .encode () ， (HOST， PORT) ) 
16 data, address = sock.recvfrom(MAX SIZE) 


TL print ("来 自 UDP 的 回复 :") 
18 print(repr(data.decode())) 
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进行 
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运行 代码 ， 


结果 如 图 13.9 所 示 。 


画 C\WINDOWS\system32\cmd.exe - python UdpSer.. 一 口 We 
;2 如 扫 各 ， 和 py A 
妥 务 二 等 入 3 


E: ‘python UdpClient.py 

: localhost 

Ni Et: 8005 
六 服务 关 在 送 数 据 ， 


E:\> 


图 13.9 ”UdpClient.py 运行 结果 


输入 UDP 服务 器 地 址 和 端口 ， 然 后 发 送 数据 ， 端 口 UDP 服务 器 接 到 数据 便 解 析 ， 接 着 
回复 。 图 中 “UDP 服务 器 在 发 送 数据 ”就 是 UDP 服务 器 回复 的 数据 。 


开始 编程 : 网 络 聊天 程序 


【本 节 代 码 参考 : Cl3\chat.py】 

我 们 使 用 前 面 几 节 介绍 的 内 容 ， 创 建 一 个 简单 的 聊天 小 应 用 。 这 个 程序 同时 包含 了 客户 
端 和 服务 端 ， 可 以 通过 参数 来 确定 程序 启动 的 是 客户 端 还 是 服务 端 。 

新 建文 件 chatpy， 输 入 例子 13.6 所 示 的 代码 。 

例子 13.6 ”客户 端 和 服务 端 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
$b 
下 和 
a 
14 
15 


import 


import 


HOST = 
PORT = 


socket 


argparse 


7 
8080 


def listen socket (host, port): 
"mw 监听 socket TCP 连接 """ 
sock = socket.socket (socket.AF INET, socket.SOCK STREAM) 
sock.setsockopt (socket .SOL SOCKET, socket.SsO REUSEADDR, 1) 
# 绑 定 端口 ，host 为 ''， 表 示 监 听 所 有 端口 
sock.bind((host, port)) 
# 监听 最 大 连接 数 
sock.listen(100) 


return sock 


16 
了 7 
18 
he 
20 
21 
22 
23 
24 
25 
26 
27 
28 
之 六 
30 
器 
E24 
总 各 
34 
35 
36 
过 加 
38 
3 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
S57 
58 


def receive msg(sock) : 
ww 解析 数 到 数据 """ 
data = bytearray() 
msg = "'" 
# 以 及 字 节 存储 
while not msg: 
recv = sock.recv(4096) 
if not recv: 
# 关闭 socket 
raise ConnectionError () 
data = data + recv 
i bh"\O" in recvs 
# 判断 收 到 数据 ，' \0' 一 直 是 最 后 的 那个 特征 值 。 
msg = data.rstrip(b'\0') 
msg = msg.decode('utf-8') 


return msg 


def prep msg (msg): 
mnm 发 送 消息 "mm 
msg += "'\0' 


return msg.encode ('utf-8') 


def send msg(sock，msg) : 
wun 准备 发 送 消息 "mm 
data = Prep_msg (msg) 
sock.sendall (data) 


def handle client (sock, addr): 

"mw 接收 客户 端 数据 并 回复 """ 

EC 
msg = receive msg(sock) # 完成 数据 的 接收 
print('{}: {}'.format (addr, msg)) 
send msg (sock，msg) + 发 送 数据 

except (ConnectionError, BrokenPipeError): 
print ('Socket 错误 ') 

finally: 
Print (' 与 {} 连 接 关 闭 ' .format (addr)) 


Sock .close () 


def serVer () : 
listen sock = listen socket (HOST， PORT) 


addr = listen sock.getsockname() 
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59 print ('" 正 在 监听 : {}'.format (addr)) 


60 while True: 

61 client sock, addr = listen sock-accept () 

62 print (' 连 接 来 自 : {}7 .format (addr)) 

63 handle client (client_ sock, addr) 

64 

65 def client() : 

66 Sock = socket.socket (socket.AF INET, socket .SOCK_ STREAM) 

67 sock.connect ( (HOST， PORT) ) 

68 while True: 

69 市 让 入 

70 print ('\n 已 经 连接 {}:{}' .format (HOST，PORT) ) 

7 print ("输入 信息 ， 按 'enter' 发 送 , 'q' 键 取消 ") 

72 msg = input() 

3 if msg "q': break 

74 send msg(sock, msg) 

75 print (' 发 送 消息 : {} .format (msg)) 

76 msg = receive _ msg(sock) 

oi print (' 收 到 回复 : ' + msg) 

78 except ConnectionError: 

79 print ('Socket 错误 ') 

80 break 

81 

82 finally: 

83 sock.close() 

84 print (' 关 闭 连接 \n') 

85 

有 在 二 让 二 name == "'_ main __': 

87 choices = {'client': client, 'server': server} 

88 parser = argparse.ArgumentParser (description=' 聊 天 小 应 用 ') 

89 parser.add argument ('role', choices=choices, help=" 选择 角色 : client ， 
或 者 server。') 

90 args = parser.parse args() 

91 execute = choices[args.role] 

92 execute () 


这 个 小 应 用 与 之 前 所 讲 的 内 容 不 同 的 是 这 里 将 客户 端 和 服务 端 写 在 了 同一 个 文件 ， 通 过 
控制 台 输 入 命令 行 参 数 执 行 。 
执行 python chat.py 会 报 如 下 错误 : 


usage: chat.py [-h] {client,server} 


chat .py: error: the following arguments are required: role 


原因 是 需要 添加 角色 ， 即 client 或 server。 执 行 python chatpy server， 结 果 如 图 13.10 所 示 。 
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丽 CWWINDOWS\system32\cmd.exe - Python chatpy- 一 口 x 


es chat.py st 
oR C127. Yo 2 


“E080) 


图 13.10 


chat.py server 运行 结果 


执行 python chat.py client， 结 果 如 图 13.11 所 示 。 


(© 127. 0.0. 
与 6 127. 0. a. 本 的 多 


:2 on chat.py server 
人 (127.0.0.1， 8080) 
3 en 2 人 1 ，53464) 


9 你 在 学 习 吗 ? 


千岛, “enter” 


而 c\WINDOWS\system3zvmdexe -python chatpy- 一 口 x 
正 :\>python chat.py client ~ 


I 下 ee 


2 0; 0.1:8080 


发 送 ，' q' 键 取消 


图 13.11 chat.py client 运行 结果 


输入 信息 ， 然 后 按 Enter 键 ， 将 会 发 送 输入 的 信息 到 服务 端 ， 执行 client0 函 数 ， 服 务 器 


接 到 客户 端 发 来 的 信息 ， 然 后 进行 响应 


代码 中 引用 了 Python 标准 库 模 块 argparse。 该 模块 主要 用 于 解析 命令 行 参 数 ， 编 写 用 户 


回复 ， 执 行 server0 函 数 。 


友好 的 命令 行 界面 ， 生 成 帮助 信息 ， 并 且 在 所 给 参数 无 效 时 进行 报错 。 使 用 argparse 的 第 一 
步 是 创建 一 个 ArgumentParser 对 象 ， 然 后 通过 add_argument() 添 加 参数 。 


1 3 引 .5 本 章 小 结 


Python 的 模块 功能 非常 丰富 ， 基 本 上 不 怎么 需要 使 用 网 络 编程 来 自己 造 轮子 了 ， 但 网 络 
编程 也 很 重要 ， 只 有 在 底层 了 解 了 网 络 编程 的 运行 原理 ， 才 能 对 轮子 使 用 得 更 加 得 心 应 手 。 


231 


14 
< Urllib 反 虫 > 


urllib 是 Python 用 来 处 理 URL (Uniform Resource Locator， 统 一 资源 定位 符 ) 的 工具 
包 ， 源 码 位 于 /Lib/ 下 ， 其 中 包含 几 个 模块 : 用 于 打开 及 读 写 urls 的 request 模块 ， 由 request 
模块 引起 异常 的 error 模块 、 用 于 解析 urls 的 parse 模块 ， 用 于 响应 处 理 的 response 模块 ， 以 
及 分 析 robots.txt 文件 的 robotparser 模块 。 本 章 利用 该 工具 包 进 行 仆 虫 讲解 ， 毕 竞 息 虫 在 Web 
互联 网 数据 采集 中 尤为 重要 。 
本 章 的 主要 内 容 是 : 
@@ Python 2.X 与 Python 3.X 的 urllib* 的 不 同 : 掌握 不 同 之 处 ， 便 于 以 后 出 现 相 关 问 题 
知道 是 由 版 本 不 同 所 导致 的 。 
@@ request、error、parse、Irobotparser 模块 的 介绍 : 熟练 应 用 这 些 模 块 ， 以 便 更 好 地 进 
行 恨 虫 实战 。 
@ nurllib 爬虫 : 实战 体验 urllib 爬虫 ， 掌 握 基本 的 爬虫 方案 。 


urllib、urllib2、urllib3 的 不 同 


简单 地 说 ，Python 2X 包含 urllib、urllib2 模块 ，Python 3.X 把 urllib、urllib2 以 及 
urlparse 合成 到 urllib 包 中 ， 而 urllib3 是 新 增 的 第 三 方 工具 包 。 

可 以 看 出 ，Python 3.X 不 像 Python 2.X 模块 那样 散乱 ， 而 是 将 相关 的 一 些 模块 打 成 包 ， 
便于 模块 调用 及 持续 维护 。 


如 如 果 放 机 制 台 中 报 “No module named urllib2” ， 就 说 明 是 Python 3.X 环境 ， 而 代码 是 在 
| 下 
明 到 “No module named urllib2”“No module named parse.urlparse ”等 问题 ， 几乎 都 是 


Python 版 本 不 同 导致 的 。 表 14-1 为 Python 2X 下 的 urllib、urllib2、urlparse 模块 及 Python 
3 和 下 urlib 包 中 不 同 函数 或 类 的 调 取 方式 。 


urllib3 是 一 个 功能 强大 、 条 理 清 晰 、 用 于 HTTP 客户 端的 Python 库 。 它 提供 了 许多 
Python 标准 库 里 所 没有 的 重要 特性 : 线程 安全 、 连 接 池 、 客 户 端 SSL/TLS 验证 、 文 件 分 部 编 
码 上 传 、 协 助 处 理 立 、 支 持 压缩 编码 、 支 持 HITP 和 SOCKS 代理 、 
100% 测 试 覆盖 率 等 。 
urllib3 安装 很 简单 ， 可 直接 通过 pip 进行 安装 : 


C:\Users> pip install urllib3 
如 果 想 使 用 最 新 代码 ， 可 从 其 GitHub 下 载 ， 或 通过 git 客户 端 安装 : 
C:\Users> git clone git://github.com/shazow/urllib3.git 


C:\Users> python setup.py install 


表 14-1 urllib、urllib2、urlparse 模块 及 urllib 包 中 不 同 函数 或 类 的 调 取 方 式 


urllib.request.urlcleanup urllib.urlcleanup 


urllib.parse.quote_plus' urllib.quote_plus' 
| umibparseuquoeo |uniomaoeo | 


urllib.request.BaseHandler urllib2.BaseHandler 


urllib.parse.unquote_plus' urllib.unquote_plus 


urllib.request.HTTPDefaultErrorHandler urllib2.HTTPDefaultErrorHandler 
urllib.request.HTTPRedirectHandler urllib2.HTTPRedirectHandler 
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Python 3.X 类 /函数 


urllib.request.ProxyDigestAuthHandler 


Python 2 类 /函数 


request.HTTPHandler 


关于 urllib3 函数 或 类 的 调用 不 做 太 多 讲解 ， 这 里 举 


>>> from urllib import request 


>>> request.urlopen ("http://www.baidu.com") 


-个 简单 的 例子 : 


<http.client.HTTPResponse object at 0x0000022EFA892470> 


如 果 读 者 想 了 解 更 多 关 了 


在 这 里 得 提 一 下 request 包 。 该 包 用 于 高 级 的 非 底层 


request 模块 强大 。request 使 用 的 是 urllib3， 从 其 源码 __ini 


区 作 刁 传 赤 皖 


urllib3 中 的 request 模块 


urllib.request 模块 定义 了 在 身份 认证 、 重 定向 、cookies 等 应 用 中 打开 url (主要 是 
HTTP) 的 函数 和 类 。 


t__.py 文件 import urllib3 就 可 
出 它 继 承 了 urllib2 的 特性 ， 支 持 HTTP 连接 保持 和 连接 池 ， 支 持 使 用 cookie 保持 会 话 、 


I 


自动 解压 缩 、 支 持 Unicode 响应 、 支 持 
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国 


的 HITP 客户 端 接口 ， 容 错 能 


际 化 的 URL 和 POST 数据 


Furllib3 包 的 内 容 ， 可 访问 文档 https://urllib3.readthedocs.io/en/latest/ 。 


力 比 


[以 看 


支持 
动 编 


码 、 支 持 HITP(S) 代 理 等 。 显 然 ， 这 些 功 能 在 Web 开发 中 很 常见 。 如 果 读 者 想 了 解 更 多 有 关 
request 包 的 内 容 ， 可 访问 其 文档 地 址 https://requests.readthedocs.io/ 。 
接 下 来 对 urllib request 模块 定义 的 一 些 函 数 或 类 进行 讲解 。 


14.2.1 对 URL 的 访问 
对 URL 的 访问 通过 urlopen0、build_opener0、build_opener() 方 法 完成 ， 下 面 依次 介绍 。 
1. urlopen() 


urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, 


capath=None, cadefault=False,context=None) 

该 函数 是 urllib 模块 中 最 为 重要 的 函数 之 一 ， 用 于 抓 取 URL 数据 。 从 函数 定义 可 以 看 4 
它 带 有 不 少 参数 ， 一 些 参数 是 在 版 本 更 改 中 添加 的 。 除 URL 外 ， 其 他 几 个 参数 都 带 有 默认 
值 ， 因 此 调用 该 函数 时 必须 带 有 URL 参数 〈 传 进来 的 网 址 可 以 是 一 个 字符 串 ， 也 可 以 是 一 个 
Request 对 象 ) 。 例 子 14.1 就 是 一 个 演示 示例 。 


= 


例子 14.1 urllib.request.urlopen() 


>>> from urllib import request 


>>> with request.urlopen ("http://www.baidu.com") as f: 


i print(f.status) 
i print (f.getheaders () ) 
200 


[('Bdpagetype', '1'), ('Bdqid', ‘Oxdfl5dlea0006a42a'), ('Cache-Control', 
'private'), ('Content-Type', 'text/html'), ('Cxy_all', 
"baidu+f04cb43ce91lad48c927813flcf3c462c')， ('Date', 'Tue, 31 Jul 2018 13:22:44 
GMT"), ("Expiresr ‘Tuer 31 Jul 2018 13:22:540 GMT")r TIP35 “CP=" OFT DSP COR 
IVA OUR IND COM "'), ('Server', 'BWS/1.1'), ('Set-Cookie', 
'BAIDUID=A7B20A9430148]1FEE64D5EB6B9D1AC72:FG=1; expires=Thu, 31-Dec-37 
23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 
"BIDUPSID=A7B20R94301481FEE64D5EB6B9D1AC727 expires=Thu, 31-Dec-37 23:55:55 
GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 
'PSTM=1533043364; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; 
path=/; domain=.baidu.com'), ('Set-Cookie', 'delPer=0; expires=Thu, 23-Jul-— 
2048 13:22:40 GMT'), ('Set-Cookie', 'BDSVRTM=0; path=/'), ('Set-Cookie', 

'BD HOME=0; path=/'), ('Set-Cookie', 
'H_PS_PSSID=26523 1461 26433 21079 26350 26922 20928; path=/; 
domain=.baidu.com'), ('Vary', 'Accept-Encoding'), ('X-Ua-Compatible', 
'IE=Edge, chrome=1'), ('Connection', ‘close'), ('Transfer-Encoding', 


'chunked')])] 


>>> 


235 


输出 的 是 响应 的 状态 码 及 响应 的 头 信息 。 至 于 返回 对 象 为 什么 有 status 属性 和 
getheaders() 方 法 ， 后 续 会 有 介绍 。 

如 果 向 服务 器 发 送 数据 ， 那 么 data 参数 必须 是 一 个 有 数据 的 bytes 对 象 ， 否 则 为 None。 在 
Python 3.2 之 后 可 以 是 一 个 iterable 对 象 。 若 是 ， 则 headers 中 必须 带 有 Content-Length 参数 。 
HTTP 请 求 使 用 POST 方法 时 ，data 必须 有 数据 ;使 用 GET 方法 时 ，data 写 None 即 可 。 


>>> from urllib import Parse 

>>> from urllib import request 

>>> data = bytes (parse.urlencode ({"Pro": "value"}), encoding="utf8") 
>>> response = request.urlopen("http://httpbin.org/post", data=data) 


>>> print (response.read()) 


NO "avg AT NA amtans mw Mn Elese tr Na “orm {Vn 本 
"value"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "9", \n “Content-Type": 
"application/x-www-form-urlencoded", \n "Host": "httpbin.org", \n "User-— 


Agent™": "Python-urilib/3.6"\n J Mn “json”: nuall \n vorigin™: 
WoC20 i219 NA uri" "ten /httpbin org/post™\nt Nn 
>>> 


对 数据 进行 post 请 求 ， 需 要 转 码 bytes 类 型 或 iterable 类 型 。 这 里 通过 bytes0 进 行 字 节 转 
换 ， 考 虑 到 第 一 个 参数 为 字符 串 ， 所 以 需要 利用 parse 模块 下 的 urlencode0 方 法 对 上 传 的 数据 
进行 字符 串 转换 ， 同 时 指定 了 编码 格式 utf8。 (parse 模块 及 其 函数 将 在 后 面 进行 讲解 。) 提 
交 的 网 址 httpbin.org 可 以 提供 HTTP 请 求 测试 。 从 返回 的 内 容 可 以 看 出 提交 以 表单 form 作为 
属性 、 以 字典 作为 属性 值 。 

timeout 参数 是 可 选 的 ， 它 以 秒 为 单位 指定 一 个 超时 时 间 。 若 超过 该 时 间 ， 则 任何 操作 都 
会 被 阻止 。 如 果 没 有 指定 ， 那 么 默认 会 取 socketGLOBAL _ DEFAULT_TIMEOUT 对 应 的 值 。 
其 实 这 个 参数 仅仅 对 http、https 和 ftp 连接 有 效 。 


>>> from urllib import request 


>>> response = request.urlopen("http://httpbin.org/get", timeout=1) 
>>> print (response.read()) 


b'{\n "args": {}, \n "headers": {\n "Accept-Encoding": "identity", \n 


"Connection": "close", \n "Host": "httpbin.org", \n "User-Agent": "python-— 
Urllib/3.6"\n }: \n "origin": "58.20.12.197", \n "url™": http://httpbin.org/get"\n}\n’ 
>>> 


根据 代码 我 们 设置 了 超时 时 间 是 1 秒 ， 程序 1 秒 过 后 服务 器 没有 响应 就 会 抛 出 
urllib.error.URLError :<urlopen error timed out> 异 常 。 

在 实际 开发 中 ， 常 常会 使 用 ty except .来 处 理 异常 ， 以 便 根 据 代码 异常 情况 进行 相应 

的 处 理 。 


236 


cafile、capath、cadefault 已 被 弃 用 ， 使 用 自 定 义 context 代替 。 从 context 参数 定义 来 
看 : 


Context= ssl.create default context (ssl.Purpose.SERVER AUTH,cafile=cafile, 
capath=capath) 
其 必须 是 ssl.SSLContext 类 型 ， 用 来 指定 SSL 设置 。cafile 和 capath 两 个 参数 用 来 指定 
CA 证 书 和 它 的 路 径 ， 在 请 求 HTTPS 链接 时 会 有 用 。 
该 函数 返回 用 作为 context manager (上 下 文 管理 器 ) 的 类 文件 对 象 并 且 包含 如 下 方法 : 
@ geturl(): 返回 一 个 资源 索引 的 URL， 通 常 重 定向 后 的 URL 照样 能 get 到 。 
@ info0: 返回 页 面 的 元 信息 ， 如 头 信息 。 
getcode(): 返回 响应 后 的 HTTP 的 状态 码 。 


除了 上 述 3 个 方法 外 ， 还 包括 getheaders() 方 法 及 status 和 msg 属性 。 示 例如 下 : 


>>> from urllib import request 


>>> response = request.urlopen("http://httpbin.org/get") 

>>> response.geturl() 

'http://httpbin.org/get' 

>>> response.info() 

<http.client.HTTPMessage object at 0x02D01F70> 

>>> response.getcode() 

200 

>>> response.msg 

1OK! 

>>> response.status 

200 

>>> response.getheaders() 

[('Connection', 'close'), ('Server', 'meinheld/0.6.1'), ('Date', 'Thu, 05 
Apr 2018 08:42:35 GMT'), ('Content-Type', ‘'application/json'), ('Access- 
Control-Allow-Origin', '*'), ('Access-Control-Allow-Credentials', 'true'), 
('X-Powered-By', 'Flask'), ('X-Processed-Time', '0'), ('Content-Length', 
pean (viars Vegac yl 

>>> 


从 代码 中 可 以 看 出 ，geturl0 返 回 的 是 请 求 的 url; info0 返 回 一 个 httplib.HTTPMessage 对 
象 ， 表 示 远 程 服务 器 返回 的 头 信息 ; getcode0 返 回 HTTP 状态 码 200， 说 明 访 问 正常 与 status 
属性 值 是 一 样 的 ， 所 以 msg 的 属性 必然 为 “OK”。 

对 于 HTTP 请求， 不 同 的 状态 码 对 应 不 同 的 状态 ， 常 见 的 有 404、500 等 。 如 以 下 
getcode0 返 回 的 状态 码 对 应 的 问题 : 

@ 1xx (informational ) : 请 求 已 经 收 到 ， 正 在 进行 中 。 

@@ 2xx (successful ) : 请 求 成 功 接收 ， 解 析 ， 完 成 。 


Ee 
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@ 3xx (Redirection ) : 需要 重 定向 。 
@ 4xx (Client Error) : 客户 端 问题 ， 请 求 存在 语法 错误 ， 网 址 未 找到 。 
@@ 5xx (Server Error) : 服务 器 问题 。 


2. build_opener() 


urllib.request.build _ opener ([handlerl [ handler2, ... ]]) 


urlopen0) 函 数 不 支 持 验证 、cookie 或 者 其 他 HTTP 高 级 功能 。 要 支持 这 些 功 能 ， 必 须 使 
build_opener() 函 数 创建 自 定义 OpenerDirector 对 象 ， 可 称 之 为 Opener。 人 参数 handler 是 
Handler 实例 ， 常 用 的 有 用 于 管理 认证 的 HITPBasicAuthHandler、 用 于 处 理 Cookie 的 
HTTPCookieProcessor、 用 于 设置 代理 的 ProxyHandler 等 。 

build_openerO 函 数 返 回 的 是 OpenerDirector 实例 ， 而 且 是 按 给 定 的 顺序 链接 处 理 程序 
的 。 作 为 OpenerDirector 实例 ， 可 从 OpenerDirector 类 的 定义 看 出 它 具 有 addheaders、 
handlers、handle open、add_handler0、open0O、close0 等 属性 或 方法 。open() 方 法 与 urlopen() 
函数 的 功能 相同 。 

例子 14.2 为 相关 演示 示例 。 
例子 14.2 urllib.request. build_opener () 


>>> from urllib import request 

>>> opener = request.build opener() 

>>> opener.addheaders = [('User-agent','"'Mozilla/5.0 (iPhone; CPU iPhone OS 
11_01ike Mac MAC OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 
Mobile/15A372 safari/604.1')] 

>>> opener.open('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x0000022EFA8924E0> 

>>> request.urlopen('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x0000022EFA89CDD8> 

>>> 


通过 如 上 代码 修改 http 报头 进行 HTTP 高 级 功能 操作 ， 然 后 利用 返 
求 ， 返 回 结果 与 urlopen0 一 样 ， 只 是 内 存 位 置 的 不 同 而 已 。 

实际 上 urllib.request.urlopen0 方 法 就 是 一 个 Opener， 如 果 安 装 启动 器 没有 使 用 urlopen 启 
动 ， 调 用 的 就 是 OpenerDirector.open0 方 法 。 如 何 设置 默认 全 局 启动 器 呢 ? 这 将 涉及 下 面 的 一 
个 新 函数 。 


3. install_opener() 


Ee 


对 象 open0 进 行 请 


urllib.request. install opener (opener) 


安装 OpenerDirector 实例 作为 默认 全 局 启动 器 。 
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>>> from urllib import request 

>>> auth handler = request .HTTPBasicAuthHandler () 

>>> auth handler.add password('admin', 'http://www.baidu.com', ‘'admin', 
'12345678') 

>>> opener = request.build opener(auth handler) 

>>> request.install opener (opener) 

>>> request.urlopen('http://www.baidu.com') 

<http.client.HTTPResponse object at 0x02C2C8B0> 


| 试 需要 在 有 自己 账户 的 一 个 网 站 进行 ， 和 否则 无 法 成 功 。 


首先 导入 request 模块 ， 实 例 化 一 个 HITPBasicAuthHandler 对 象 ， 然 后 通过 利用 
add_password() 添 加 用 户 名 和 密码 来 建立 一 个 认证 处 理 器 ， 利 用 urllib requestbuild_opener() 方 
法 来 调用 该 处 理 器 构建 Opener， 并 使 其 作为 默认 全 局 启动 器 ， 这 样 Opener 在 发 送 请 求 时 有 具 
备 了 认证 功能 。 通 过 Opener 的 open0 方 法 打开 链接 完成 认证 。 当 然 这 个 实例 是 无 法 跑 通 的 ， 
所 访问 的 url 是 无 法 直接 输入 用 户 名 和 密码 的 。 

除了 上 述 方法 外 ， 还 有 将 路 径 转 换 为 URL 的 pathname2url(path)、 将 URL 转换 为 路 径 的 
url2pathname(path) 以 及 返回 方案 至 代理 服务 器 URL 映射 字典 的 getproxies0 等 。 


14.2.2 Request 类 
对 于 一 般 基本 URL 请 求 ， 我 们 使 用 urlopen0 就 可 以 ， 如 果 需 要 添加 headers 信息 ， 就 要 
考虑 更 为 强大 的 Request 类 了 。Request 类 是 URL 请 求 的 抽象 ， 包 含 了 许多 参数 ， 并 定义 一 
系列 属性 和 方法 。 
1. 定义 


class urllib.request.Request (url, data=None, headers={}, origin req host=N 


one, unverifiable=False,method=None) 


参数 url 为 有 效 网 址 的 字符 串 ， 等 同 于 urlopen() 方 法 的 url 参数 。data 也 一 样 。headers 很 
明显 是 一 个 字典 ， 可 以 通过 add_header0 以 键 值 进行 调 用 。 这 通常 用 于 疏 虫 疏 取 数据 时 或 者 
Web 请 求 时 更 改 User-Agent 标 头 值 参数 来 进行 请 求 。origin_req_host 为 原始 请 求 主机 ， 比 如 
请 求 的 是 针对 HTML 文档 中 的 图 像 的 ， 则 该 请 求 主机 是 包含 图 像 的 页 面 所 在 的 主机 。 
Unverifiable 指示 请 求 是 否 是 无 法 验证 的 。method 指示 使 用 的 是 HTTP 请 求 方法 。 常 用 的 有 
“GET” “POST” “PUT” “HEAD” “DELETE” 等 。 


>>> from urllib import request 
>>> from urllib import parse 
>>> data = parse.urlencode ({"name":"baidu"}) .encode ('utf-8') 


>>> headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) 


239 


AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} 
>>> req = request.Request (url="http://httpbin.org/post", data=data, 
headers=headers, method="POST") 
>>> response = request.urlopen (reqg) 
>>> response.read() 


HN argsrs The Mi "datans mw Mn WELLUeB™ TF Mn EC 


"name": "baidu"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "11"， \n "Content-Type™": 
"application/x-www-form-urlencoded", \n "Haast" “Etobin org™ Wh RU 三 


Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like 
Gecko) Chrome/50.0.2661.102 Safari/537.36"\n }, \n "json": null, \n "origin": 
"L053 L009 L160" Mn “url”s "hetp /httobin.org/post" Mi Na 

>>> 


data 参数 必须 是 字 节 流 类 型 的 ， 这 些 在 前 面 都 已 涉及 ， 不 同 的 是 调用 Request 类 进行 请 求 。 
2. 属性 方法 


(1) Request.full_ url 
从 代码 定义 可 以 看 出 Request.full url 是 函数 属性 化 处 理 ， 通 过 添加 修饰 器 @property 将 
原始 URL 传递 给 构造 函数 。 


class Request: 


@property 
def full url (self): 
if self.fragment: 
return '{}#{}'.format (self. full url, self.fragment) 
return self. full url 


@full url.setter 

def full urll(self, url): 
# unwrap('<URL:type://host/path>') --> 'type://host/path' 
self._ full url = unwrap (url) 
self. full url, self.fragment = splittag(self. full url) 


Self. parse() 


@full url.deleter 

def full Url (self): 
self. full url = None 
self.fragment = None 


Self.3elector = 
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full_ url 将 返回 原始 请 求 URL 片段 。 例 子 14.3 演示 Request.full url 的 使 用 。 


full_url 属性 包含 setter、getter 和 deleter。 如 果 原 始 请 求 URL 片段 存在 ， 


例子 14.3 Request.full_url 的 使 用 


那么 得 到 的 


>>> from urllib import request 
>>> from urllib import Parse 
>>> req = request.Request('http://www.baidu.com') 
>>> def request host (request): 
url = request.full url 
host = parse.urlparse (url) [1] 
if host == "": 
host = request.get header ("HOST","") 
return host.lower() 


>>> request host (req) 


"www.baidu.com' 


在 定义 request_hostO 函 数 中 可 以 看 出 ， 先 获取 请 求 对 象 的 URL， 然 后 简 析 该 URL 取得 


主机 地 址 。 


互 


(2) Request.type 
获取 请 求 对 象 的 协议 类 型 。 


>>> req.type 
"http' 


(3) Request.host 
获取 URL 主机 ， 可 能 包含 有 端口 的 主机 。 


>>> req.host 


'WwwW .baidu.com' 


(4) Request.orgin req host 
发 出 请 求 的 原生 主机 ， 没 有 端口 。 


>>> req.origin req host 


"www.baidu.com' 


其 他 属性 不 做 介绍 ， 比 如 selector、data、method 等 。 


(5) Request.get method() 
返 


Ee 


显示 HTTP 请 求 方法 的 字符 串 。 如 果 Requestmethod 不 是 None， 则 返回 它 值 ， 否 则 返 


“GET”。 如 果 Request.data 是 None， 就 返回 “POST”。 这 是 唯一 有 意义 的 HTTP 请 求 。 
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了 Python 3.3+ 版 本 的 变化 : get Imethod 是 Requestmethod 的 新 形式 。 


>>> from urllib import request 


>>> req = request.Request('http://www.python.org', method="'HEAD') 
>>> req.get method() 
'HEAD' 


(6) Request. add header(key, val) 
向 请 求 中 添加 标 头 ， 通 过 例子 14.4 来 展示 。 


例子 14.4 Request. add_header 的 使 用 


>>> from urllib import request 

>>> from urllib import parse 

>>> data = bytes (parse.urlencode({'name':baidu}), encoding='utf-8') 

>>> req = request.Request('http://httpbin.org/post',data, method="'POST') 

> req.add header('User-agent','Mozilla/5.0 (iPhone; CPU iPhone OS 11 0 1 
...: ike Mac MAC OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) 


Version/11.0 Mo 


...: bile/15A372 Safari/604.1') 
>>> response = request.urlopen (reqg) 
>>> print (response.read() .decode ('utf-8')) 


{ 


"args": {}, 
madatan: "", 
"lege (i 
"Orme 

"name": "baidu” 
}, 
"headers": { 


"Accept-Encoding": "identity", 

"Connection": "close", 

"Content-Length": "11"， 

"Content-Type": "application/x-www-form-urlencoded", 

"Host”s "httpbin. org”y 

"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone Os 11 0 like Mac MAC OSs 


X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1" 


} 
"json" null, 


et St 


"origin 


wurl": "http://httpbin.org/post" 


>>> 


从 代码 可 以 看 出 ， 通 过 add_header0 传 入 了 User-Agent。 在 怜 虫 过 程 中 常常 通过 循环 调 入 


add_header() 来 添加 不 同 的 User-Agent 进行 请 求 ， 避 免 服 务 器 针对 某 一 User-Agent 的 禁用 。 


他 方法 如 has header()、 remove header()、get full url)、 set |._ proxy0 等 不 做 介绍 。 如 果 


读者 需要 了 解 它们 的 使 用 方法 ， 请 查看 Python 文档 或 源 代码 。 


14.2.3 ”其 他 类 


BaseHandler 为 所 有 注册 处 理 程序 的 基 类 ， 并 且 只 处 理 注册 的 简单 机 制 。 从 定义 来 看 ， 
BaseHandler 非常 简单 ， 提 供 了 一 个 添加 基 类 的 add_parent0 方 法 。 我 们 接 下 来 介绍 的 这 些 类 


都 是 继承 该 类 操作 的 。 
@ HTTPErrorProcessor: 用 于 HTTP 错误 响应 过 程 。 
@ HTTPDefaultErrorHandler: 用 于 处 理 HTTP 响应 错误 ， 错 误 都 会 抛 出 HTTPError 类 
型 的 异常 。 
@ ProxyHandler: 用 于 设置 代理 。 
@ HTTPRedirectHandler: 用 于 处 理 重 定向 。 
@ HTTPCookieProcessor: 用 于 处 理 Cookie。 
@ HTTPBasicAuthHandler: 用 于 管理 认证 。 


除了 这 些 ， 当 然 还 有 许多 类 ， 这 里 不 做 过 多 介绍 ， 读 者 可 以 查看 其 官方 文档 或 源码 。 


上 ,= request 引发 的 异常 


error 模块 定义 了 由 urllib.request 引发 异常 的 异常 类 。 从 其 源码 可 以 看 出 有 3 个 ， 分 别 为 


URLError、 HTTPError、ContentTooShortError。 


URLError 是 OSError 的 子 类 ， 用 于 处 理 程序 在 遇 到 问题 时 引导 此 异常 〈 或 派生 异常 ) 。 
HTTPError 是 URLError 的 子 类 ， 在 处 理 HITP 错误 〈 比 如 认证 请 求 ) 上 很 重要 。 根 据 服 务 器 
上 HTTP 响应 返回 的 状态 码 ， 可 以 知道 我 们 的 访问 是 否 成 功 。 比 如 200 状态 码 ， 表 示 请 求 成 
功 。ContentTooShortError 与 HITPError 一 样 是 URLError 的 子 类 ， 通 过 request.urlretrieve() 函 
数 检 测 下 载 数 据 量 小 于 Content-Length 头 指定 的 数据 量 时 ， 引 发 该 异常 。 


>>> from urllib import request 


>>> from urllib import error 


>>> req = request.Request('http://www.baidu.com/hack.html') 
EY 


response = request.urlopen (req) 
print (response.read()) 
> exCept erroreHrtTPError as es 


print(e.code) 
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404 


运行 之 后 得 到 404 错误 ， 说 明 请 求 的 页 面 不 存在 。 试 着 在 浏览 器 打开 ， 会 发 现 404 错误 


下 载 


S33 EEWS 


request .urlretrieve('http://www.iobigdata.com/pha/', 'ring.mp3') 


: except error.ContentTooShortError: 


print (' 内 容 未 完全 下 好 ! ') 


如 果 下 载 没 有 完成 就 会 报错 ， 否 则 不 会 。 


解析 URL 的 parse 模块 


parse 模块 用 于 分 解 URL 字符 串 为 各 个 组 成 部 分 ， 包 括 寻 址 方案 、 网 络 位 置 、 路 径 等 ， 
也 能 用 于 将 这 些 部 分 组 成 URL 字符 串 ， 同 时 可 以 对 “相对 ”URL 进行 转换 。 


14.4.1 URL 解析 
URL 解析 无 非 是 将 URL 拆 开 为 各 部 分 ， 或 将 各 部 分 组 成 完整 的 URL 等 。 在 这 里 我 们 将 讲 
述 常用 的 几 个 函数 ， 如 urlparse0、urlunparse0 、urlsplit0、urlunsplit0、urljoin0、urldefragO 等 。 


1. urllib.parse.urlparse(urlstring,scheme=",allow_fragments=True) 
解析 URL 为 6 部 分 ， 返回 一 个 6 元 组 (tuple 子 类 的 实例 ) 。tuple 类 具有 表 14-2 所 列 的 
属性 。 


14-2 ”返回 元 组 具有 的 属性 及 其 说 明 


属性 对 应 下 标 指数 不 存在 时 的 取 值 
Scheme | URL 方案 说 明 符 scheme 参数 
netloc | 网 络 位 置 部 分 | 空 字符 串 
path | 分 层 路 径 空 字符 串 

最 后 路 径 元 素 的 参数 空 字符 串 


( 续 表 ) 
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属性 说 明 对 应 下 标 指数 | 不 存在 时 的 取 什 

查询 组 件 4 | 空 字符 串 

fragment 片段 标识 符 5 | 字符 串 

username 用 户 名 None 

password 密码 None 

hostname 主机 名 (小写 ) | None 

port 端口 号 (如 果 存 在 ) | None 

组 成 URL 的 一 般 结构 为 scheme://netloc/path:parameters?query#fragment。 下 面 通过 例子 
14.5 进行 演示 。 


例子 14.5 Request. add_header 的 使 用 


>>> from urllib.parse import urlparse 

>>> res = urlparse('https://docs.python.org/3/whatsnew/3.7.html') 

>>> res 

ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew/ 
3.7.html', params='', query='', fragment="'') 

>>> res.scheme 

'https' 


>>> 
"doc 
>>> 
SSA 
>>> 


>>> 


res.netloc 
s.python.org' 
res.path 
whatsnew/3.7.html' 


res.params 


res.query 


res.fragment 


res.username 


res.password 


res.hostname 


"docs .Python .org' 

>>> Tes.port 

>>> res.geturl() 
'https://docs.python.org/3/whatsnew/3.7.html' 

>>> tuple (res) 

('https', ‘'docs.python.org', '/3/whatsnew/3.7.html' 
>>> res[0] 

https" 

>>> res[1] 


'docs.python.org' 
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>>> res[2] 
'/3/whatsnew/3.7.html" 
>>> 


从 代码 中 我 们 很 容易 理解 返 


互 


元 组 每 一 个 元 素 对 应 的 值 。urlparse 有 时 并 不 能 很 好 地 识别 


netloc， 它 会 假定 相对 URL 以 路 径 分量 开 始 。 


>>> from urllib.parse import urlparse 

>>> urlparse('//docs.python.org/3/whatsnew/3.7.html') 

ParseResult (scheme='', netloc='docs.python.org', path='/3/whatsnew/3.7. 
html', params='', query='', fragment="'') 

>>> urlparse('docs.python.org/3/whatsnew/3.7.html') 

ParseResult (scheme='', netloc='', path='docs.python.org/3/whatsnew/3.7. 


) 


html', params='', query="'', fragment= 
>>> urlparse('3/whatsnew/3.7.html') 
ParseResult (scheme='', netloc='', path='3/whatsnew/3.7.html', params="" 
7 duery='', fragment="'') 

>>> 


从 上 述 代 码 可 以 看 出 ，urlparse 解析 是 有 问题 的 ， 无 法 正确 解析 netloc， 而 是 将 其 取 值 放 


在 path 中 。 因 此 在 开发 过 程 中 要 特别 注意 该 情况 。 


2. urllib.parse.urlunparse(parts) 
从 函数 定义 可 以 看 出 urlunparse0 是 urlparseO0 逆 向 操作 ， 即 将 urlparse0 返 回 的 元 组 构建 一 


个 URL。 
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>>> res 
ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew 
/3.7.html', params='', query='', fragment="'') 


>>> from urllib.parse import urlunparse 
>>> urlunparse (res) 
'https://docs.python.org/3/whatsnew/3.7.html' 


res 为 刚才 定义 的 返回 元 组 对 象 ，urlunparseO 直 接 使 用 该 对 象 构造 了 URL。 
3.urllib.parse.urlsplit(urlstring,scheme=",allow_fragments=True) 


该 函数 类 似 urlparse0， 只 是 不 会 分 离 参数 ， 即 返回 的 元 组 对 象 没 有 params 元 素 ， 是 一 
元 组 ， 相 应 的 下 标 指数 也 发 生 了 改变 。 


>>> from urllib.parse import urlsplit 


>>> sp = Urlsplit ('https://www.baidu.com/s?wd=python&ie=utf-8&tn=94100467 
= hao pg') 

>>> sp 

SplitResult (scheme='https', netloc='www.baidu.com', path='/s', query=" 

d=pythongie=utf-8&tn=94100467 hao pg', fragment="') 


除了 少 了 params， 跟 urlparseO 返 


互 


的 结果 差不多 。 


3.urllib.parse. urlunsplit(parts) 


类 似 于 urlunparse(parts)。 
4.urllib.parse. urljoin(base, url, allow_fragments=True) 
该 函数 主要 组 合 基本 网 址 (base) 与 另外 一 个 网 址 (url) 构造 新 的 完整 网 址 。 


>>> from urllib.parse import urljoin 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: ,1 'test/one.html') 

'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: ,1 './test/one.html') 

'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 

>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
Wr /test/lone.htal") 

'http://news.baidu.com/z/resource/pc/test/one.html' 


>>> urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: , '/test/one.html') 
'http://news.baidu.com/test/one.html' 


从 代码 可 以 看 出 ， 相 对 路 径 和 决 对 路 径 的 url 组 合 是 不 同 的 ， 而 且 相 对 路 径 是 以 最 后 部 
分 路 径 进 行 蔡 换 处 理 的 。 


如 果 ul 是 绝对 网 址 《以 /或 scheme:// 开 头 ) ， 那 么 url 15> 的 主机 名 和 /或 方案 将 出 现在 结 
果 中 。 : 


5.urllib.parse. urldefrag(url) 

根据 url 进行 分 开 ， 如 果 url 包含 片段 标识 符 ， 就 返回 url 对 应 片段 标识 符 前 的 网 址 ， 
fragment 取 片 段 标识 符 后 的 值 ， 其 下 标 指数 固然 也 就 是 1 了 ; 如 果 url 没有 片段 标识 符 ， 那 么 
fragment 为 空 字符 串 。 


>>> from urllib.parse import urldefrag 


>>> urldefrag('http://www.python.com/download/soft .html#python3.7) 
DefragResult (url='http://www.python.com/download/soft.html', fragment=" 
python3.7') 


该 代码 带 片 段 标识 符 ml 地 址 是 虚拟 的 ， 从 结果 可 以 很 明显 地 看 出 urldefrag0 函 数 的 功能 。 
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14.4.2 ”URL 转 义 
URL 转 义 可 以 避免 URL 有 些 字符 引起 歧义 ， 通 过 引用 特殊 字符 并 适当 编码 非 ASCII 文 


本 ， 使 其 作为 URL 组 件 安全 使 用 。 当 然 也 支持 反 转 这 些 操作 以 便 从 URL 组 件 内 容 
原始 数据 。 


1.urllib.parse.quote(string,safe='/",encoding=None.,errors=None) 


通过 使 用 %xx 转 义 替换 string 中 的 特殊 字符 ， 其 中 字母 、 数 字 和 字符 ' .-' 不 会 进行 转 义 。 
默认 情况 下 ， 此 函数 用 于 转 义 URL 的 路 径 部 分 。 可 选 的 safe 参数 指定 不 应 转 义 的 其 他 ASCII 
字符 一 一 其 默认 值 为 /。 


>>> from urllib.parse import quote 


>>> quote ('http://www.Ppython.com/download/soft.html#python3.7&county=chin 
-| 

'http%3A//www.python.com/download/soft .html%23python3.7%26country%3Dchi 

na' 


>>> quote('http://www.python.com/download/soft.html#python3.7&country=chin 
: a', safe='/=') 


'http%3A//www.python.com/download/soft.html%23python3.7%26country=china 


从 输出 结果 可 以 看 出 “: ”替换 为 “%3A”、“#” 蔡 换 为 “%23”、“&” 蔡 换 为 
“9%26”、“=” 蔡 换 为 “%3”。Jn[46] 设 置 了 safe 为 “二 ”后 ，“=” 就 没有 进行 转 义 了 。 

参数 string 既 可 以 是 字符 串 ， 也 可 以 是 bytes 类 型 。 参 数 encoding 用 来 指定 编码 格式 ， 
默认 为 “utf-8”， 其 默认 编码 满足 了 大 部 分 需求 。errors 在 处 理 非 ASCII 字符 中 指定 ， 默 认 
为 “strict”， 对 于 不 支持 的 字符 会 引发 UnicodeEncodeError 错误 。 


>>> from urllib.parse import quote 
>>> 
quote (bytes ('http://www.python.com/download/soft .html#python3.7&country 
: =china', encoding='utf-8'), safe='/=', encoding='utf-8') 


TypeError Traceback (most recent call last) 
<ipython-input-5-3600el1l55b0b3> in <module>() 
3 


quote (bytes ('http://www.python.com/download/soft .html#python3.7&country= 


china', encoding="'utf-8'), safe='/=', encoding='utf-8') 


c:\python37-32\lib\urllib\parse.py in quotel(string, safe, encoding, errors) 
782 else: 
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783 if encoding is not None: 


==> JT84 raise TypeError("quote() doesn't support "encoding' for 
bytes") 
785 if errors is not None: 
786 raise TypeError("quote() doesn't support ‘errors' for 
bytes" 


) 


TypeError: quote() doesn't support "encoding' for bytes 


从 上 述 代 码 可 以 看 出 ， 当 参数 为 bytes 类 型 时 ， 说 明 在 bytes0 中 的 参数 已 经 进行 
encoding 指定 ， 无 须 在 quote0 函 数 中 指定 了 ， 否 则 就 会 报 TypeError 错误 。 

2.urllib.parse.unquote(string, encoding='utf-8', errors='replace') 

该 函数 很 显然 是 quoteO 的 逆向 操作 ， 即 将 %xx 转 义 为 等 效 的 单字 符 。 参 数 encoding 和 
errors 用 来 指定 %xx 编码 序列 解码 为 Unicode 字符 ， 如 同 bytes.decode() 方 法 。 


>>> from urllib.parse import unquote 


>>> a = quote (bytes ('http://www.pPython.com/download/soft.htm1l#Python3.7&co 
: untry=china', encoding='utf-8'), safe='/=') 


>>> type (a) 
str 


>>> a 
'http%3A//www.python.com/download/soft.html%23python3.7%26country=china 


>>> unquote (a) 
'http://www.python.com/download/soft.html#python3.7&country=china’ 


quote0 函 数 返回 的 是 字符 串 ， 转 义 的 字符 通过 unquoteO 进 行 了 转 码 。 

3. urllib.parse.quote_plus(string, safe=", encoding=None, errors=None) 

该 函数 是 quoteO 的 增强 版 ， 跟 quote0 的 功能 差不多 ， 不 同 的 是 用 “+” 蔡 换 空格 在 提 
交 表 单 值 构建 字符 串 进 入 URL 请 求 时 ， 这 是 必须 的 ) ， 而 且 如 果 原 始 URL 有 字符 ， 那 么 
“+” 将 被 转 义 。 


>>> from urllib.parse import quote plus, quote 


>>> a = quote (bytes('http://www.python.com/download/soft.html#python3.7&co 
: untrytchina is my love', encoding='utf-8'), safe='/="') 
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>>> a 
'http$3A//www.python.com/download/soft.html%23python3.7%26country%2Bchi 
na%®%20is%20my%20love"' 


>>> b = quote plus (bytes('http://www.python.com/download/soft.html#python3 
.Tgcountrytchina is my love', encoding='utf-8'), safe='/="') 


>>> b 


'http$3A//www.python.com/download/soft.html%23python3.7%26country%2Bchi 
na+is+my+love"' 


在 quote_plus0 函 数 下 ， 字 符 “+” 转 义 为 “9%2B”， 空 格 以 “+” 替换 。 
4.urllib.parse.unquote_plus(string, encoding='utf-8', errors='replace') 
类 似 unquote0， 这 里 不 做 演示 。 


5.urllib.parse.urlencode(query, doseq=False, safe=", encoding=None, errors=None, qu 
ote_via=quote_plus) 

读者 应 该 会 发 现 该 函数 在 前 面 调 用 过 。 通 常 在 使 用 HTTP 进行 POST 请 求 对 传递 的 数据 
进行 编码 时 会 使 用 该 函数 。 

>>> from urllib import parse 


>>> from urllib import request 
>>> data = bytes (parse.urlencode({"pro": "value"}), encoding="utf8") 


>>> response = request.urlopen("http://httpbin.org/post", data=data) 


>>> response.read() 
WAN\n args™s tr Mi “daca wn Nn “Fiesm tH Vi “orm [Nm 


"pro": "value"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "9", \n "Content-Type": 
"application/x-www-form-urlencoded", \n "Host": SALteDindegn. Va “User— 


Agent":"Python-urllib/3.6"\n }, \n "json": null, \n "origin": 
"110.53.189.118", \n"url": "http://httpbin.org/post"\n}\n' 

data 为 所 提交 的 数据 。 注 意 ， 该 数据 必须 转换 为 bytes 类 型 ， 或 者 使 用 encode('ascii) 进 行 
编码 。 调 用 urlencode0O 转 换 为 %xx 编码 的 ASCII 文本 字符 串 。 

除了 上 述 函 数 外 ， 还 有 quote_from bytes0 、unquote to_bytes0 等 ， 如 果 读 者 想 了 解 更 
多 ， 可 查看 官方 文档 或 源码 。 


分 析 robots.txt 文件 


robotparser 模块 很 简单 ， 整 个 源 代码 也 就 两 百 多 行 ， 仅 定义 了 3 个 类 《分 别 为 
RobotFileParser、RuleLine、Entry) ， 但 从 all 属性 来 看 也 就 RobotFileParser 一 个 类 (用 于 
处 理 有 关 特 定 用 户 代 理 是 否 可 以 在 发 布 robots.txt 文件 的 网 站 上 提取 网 址 内 容 ) 了 。robots.txt 
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可 以 说 是 一 个 协议 文件 ， 是 搜索 引擎 访问 网 站 时 查看 的 第 一 个 文件 《会 告诉 爬虫 或 蜂 蛛 程序 
在 服务 器 上 可 以 查看 什么 文件 ) 。 

RobotFileParser 类 有 一 个 url 参数 ， 有 set url0、read0、Pparse0、can_fetchO0、mtimeO、 
modified() 等 方法 。set_url(ur]) 用 来 设置 指向 robots.txt 文件 的 网 址 。read0 用 来 读 取 robots.txt 
网 址 ， 并 将 其 提供 给 解析 器 。parse0 用 来 解析 robots.txt 文件 。can fetch(useragent,url) 用 于 判 
断 是 否 可 提取 url， 如 果 人 允许 useragent 根据 解析 的 robots.txt 中 的 规则 提取 url， 就 返回 True， 
否则 就 返回 False。mtime0O 返 回 上 次 抓 取 robots.txt 时 间 。modified0 将 上 次 抓 取 robots.txt 文件 
的 时 间 设 置 为 当前 时 间 。 

例子 14.6 用 来 演示 一 下 RobotFileParser 类 的 基本 使 


例子 14.6 ”RobotFileParser 的 使 用 


>>> from urllib.robotparser import RobotFileParser as RbP 
>>> rbp = RbP() 

>>> rbp.set url('http://www.baidu.com/robots.txt') 

>>> rb_read = rbp.read() 

>>> rbp.can fetch('*', 'http://www.baidu.com') 

False 


>>> rbp.mtime() 
1523200823.1784632 


>>> rbp.modified() 
>>> rbp.mtime() 
1523200880.7127542 


>>> Tb. read 
>>> 


从 代码 中 就 可 以 清楚 地 知道 各 个 方法 的 使 用 ， 这 里 不 再 歼 述 。 


1.O 本 章 小 结 


Python 的 urllib 模块 整合 了 大 部 分 有 关 网 络 的 功能 。 如 果 没 有 什么 特殊 的 要 求 ， 基 本 上 
这 一 个 模块 就 可 以 在 网 络 编程 方面 打 天 下 了 。 比 urllib 更 方便 的 模块 也 不 是 没有 ， 比 如 第 三 
方 模块 requests 就 更 加 强大 。 如 果 只 是 单纯 地 使 用 ， 建 议 使 用 requests; 如 果 想 顺便 熟悉 网 络 
方面 的 原理 ， 建 议 还 是 使 用 urllib 模块 。 
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第 15 章 
< 网 页 肥 虫 实 战 > 


urllib 疏 虫 可 以 说 是 最 基本 最 原始 的 聆 虫 方式 ， 很 多 爬虫 框架 比如 Scrapy、Pyspider 都 是 
在 该 包 基 础 上 建立 起 来 的 。 掌 握 它 对 于 我 们 以 后 进行 朴 虫 编程 尤为 重要 。 至 于 什么 是 爬虫 ， 
通俗 点 说 就 是 浏览 网 页 信息 时 我 们 需要 按照 一 些 规则 去 检索 ， 这 个 检索 规则 就 是 仆 虫 代码 ， 
实现 的 过 程 就 是 仆 虫 。 简 单 候 虫 只 需要 三 步 ， 也 就 是 本 章 将 要 介绍 的 三 个 主要 内 容 。 

本 章 的 主要 内 容 是 : 

@ ”获取 页 面 源 码 数 据 。 

@@ ”根据 需要 检索 数据 。 

@@ ”保存 数据 到 本 地 。 


获取 页 面 源码 


使 用 Python 从 服务 器 端 获取 浏览 网 页 的 源码 (简单 仆 虫 ， 不 考虑 JavaScript 获取 的 数 
据 ) 。 在 Python 下 可 用 的 模块 很 多 ， 这 里 使 用 Python 3.7 的 官方 模块 urllib。 


15.1.1 从 网 页 获取 数据 
事实 上 ， 在 第 14 章 我 们 已 经 使 用 urllib 包 某 些 模块 进行 了 疏 虫 编程 。 比 如 要 读 取 
http:/www.baidu.com 网 页 的 内 容 ， 使 用 如 下 代码 即 可 : 


>>> from urllib import request 

>>> res = request.urlopen('http://www.sogou.com') 

>>> res.read() 

b'<!DOCTYPE html>\r\n<html lang="cn">\r\n<head>\r\n 
<script>window._ speedMark = new Date();\r\n window.lead ip = 
\'114.253.161.91\';window.now = 1533044746304;</script> <meta charset="utf— 
8">\r\n<link rel="dns-prefetch" href="//img01.sogoucdn .com"><1Link rel="dns-— 
prefetch" href="//img02.sogoucdn.com"><link rel="dns-prefetch" 


href="//img03.sogoucdn.com">... 


上 述 代码 输出 内 容 太 多 ， 此 处 只 复制 了 一 部 分 ， 不 过 可 以 从 中 看 出 其 返回 的 是 bytes 类 
型 。 上 述 代码 其 实 就 是 一 个 页 面 的 爬 取 【〈 疏 取 的 是 http://www.sogou.com 网 址 所 打开 的 页 
面 ) ， 并 将 礁 取 页 面 网 址 传 给 变量 res， 再 用 函数 read0) 读 取 整 个 页 面 。 


15.1.2 ”转换 编码 UTF-8 


如 果 想 让 代码 更 直观 一 点 ， 即 将 返回 的 ASCII 编码 转换 成 我 们 需要 的 编码 格式 ， 如 
UTF-8， 可 以 参考 例子 15.1 所 示 的 操作 。 


例子 15.1 转换 编码 UTF-8 


>>> from urllib import request 

>>> rr = request.urlopen('http://www.sogou.com') .read() 

>>> rr.decode('utf-8') 

"<!DOCTYPE html>\r\n<html lang="cn">\r\n<head>\r\n 
<script>window. speedMark = new Date();\r\n window.lead ip = 
\'114.253.161.91\';window.now = 1533045011612;</script> <meta charset="utf— 
8">\r\n<link rel="dns-prefetch" href="//img01.sogoucdn.com"><link rel="dns-— 
prefetch" href="//img02.sogoucdn.com"><link rel="dns-prefetch" 
href="//img03.sogoucdn.com"><link rel="dns-prefetch" 
href="//img04.sogoucdn.com"><link rel="dns-prefetch" 
href="//dlweb.sogoucdn.com">\r\n<title> 搜 狗 搜索 引擎 - 上 网 从 搜狗 开始 
</title>\r\n<link rel="shortcut icon" href="/images/logo/new/favicon.ico?v=4" 
type="image/x-icon">\r\n<meta http-equiv="X-UA-Compatible" 
content="IE=Edge">\r\n<link rel="search" 
type="application/opensearchdescription+xml" href="/content-search.xml" 
title=" 搜 狗 搜索 ">\r\n<meta name="keywords" content=" 搜 狗 搜索 ,网 页 搜索 , 微 信 搜索 ,视频 搜 
索 ,图 片 搜索 , 音乐 搜索 , 新闻 搜 索 ,软件 搜索 , 问答 搜索 ,百科 搜索 ,购物 搜索 ">\r\n<meta 
name="description" content=" 中 国 领 先 的 中 文 搜索 引擎 ， 支 持 微 信 公 众 号 、 文 章 搜索 ， 通 过 独 有 的 
SogouRank 技术 及 人 工 智能 算法 为 您 提供 最 快 、 最 准 、 最 全 的 搜索 服务 。"> 


如 果 继 续 以 原来 resread0 的 代码 进行 操作 ， 如 resreadO.decode(utf-8)， 得 到 的 将 是 : 

“”， 因 为 read0 函 数 是 一 次 读 取 的 。 除 了 read0 读 取 外 ， 还 有 readline0 和 readlines()。 : 

其 中 readline0 读 取 一 行 ，readlinesO 读 取 全 部 内 容 ， 不 同 的 是 readlines0 会 将 读 取 内 容 传 : 

给 一 个 列表 变量 。 有 

上 述 控 制 台 的 操作 从 原理 上 说 已 经 实现 一 个 页 面 的 息 虫 ， 只 不 过 还 没有 将 其 存储 在 本 地 
文件 或 数据 库 中 罢了 。 


15.1.3 ”添加 关键 字 进 行 搜索 
接 下 来 我 们 通过 修改 报头 、 添 加 关键 字 进 行 搜索 疏 虫 来 完成 urllib 怜 虫 的 学 习 。 
修改 报头 已 在 之 前 模块 介绍 中 进行 了 讲解 ， 主 要 包含 两 种 方法 : 


@@ ”使 用 build openerO 修 改 报头 。 
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@@ ”使 用 add header0 添 加 报头 ， 关 键 字 在 quoteO 函 数 中 设置 。 
EB 例子 15.2 的 代码 进行 演示 。 


例子 15.2 添加 关键 字 进 行 搜索 


>>> from urllib import request 

>>> url = 'http://www.baidu.com/s?wd=" 

>>> key = ' 机 器 学 习 ' 

>>> key url = request.quote (key) 

>>> req = request.Request (url+key url) 

>>> req.add header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) 
Apple...: WebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 
Safari/537.36') 


>>> data = request .urlopen (req) .read() 
>>> file = open('index.html', ‘'wb') 
>>> file.write(dqata) 

en 


>>> file.close!() 

上 述 代 码 通 过 quote0 函 数 对 关键 字 进 行 编码 ， 编 码 之 后 再 构造 URL， 然 后 使 用 Request 
类 要 添加 报头 ， 因 此 不 使 用 urlopen0) 进行 请 求 ， 接 着 对 搜索 关键 字 搜 索 页 面 进行 候 虫 操 
作 ， 最 后 保存 为 index.html。 打 开 该 页 面 ， 如 图 15.1 所 示 。 


1 Mr 
© |© meycyusermrontomvnaeahum ERETT EAT TENE 


Dome” | nase EE aas a 赋 


人 工 各 半 教 所 ? 王 基 表 到 _ 瑟 法 内 医学 习 入 
民 人 
rf 


Er 


图 15.1 怜 取 的 搜索 页 面 index.html 
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获取 到 页 


而 的 源码 数据 后 ， 需 要 将 这 些 数据 过 滤 一 下 ， 得 到 所 需 的 有 用 信息 。 全 部 使 用 


Python 自 带 的 re 模块 来 过 滤 也 是 可 以 的 ， 但 这 是 最 笨重 最 麻烦 的 办 法 ， 一 般 都 是 采用 其 他 简 


单 的 怜 虫 了 


[有 具 来 过 滤 ， 以 re 模块 作为 补充 。 这 上 


4 (简称 bs4) 。 


15.2:1 


Beautiful Soup 简介 


介绍 一 款 常 用 的 怜 虫 工具 


Beautiful Soup 


Beautiful Soup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 (第 三 方 库 ， 
需要 自行 安装 ) 。 它 能 够 通过 你 喜欢 的 转换 器 实现 常用 的 文档 导航 、 查 找 、 修 改 文档 的 操 
作 。Beautiful Soup 会 帮 我 们 节省 数 小 时 甚至 数 天 的 工作 时 间 。 

在 使 用 bs4 解析 文档 时 ， 需 要 一 款 解析 器 。 解 析 器 既 可 以 使 用 Python 的 标准 库 
html.parser， 也 可 以 使 用 html5lib， 但 建议 选择 bs4 官方 推荐 的 lxml。 


bs4 和 Ixml 都 是 第 三 方 的 模块 ， 都 是 需要 自行 安装 的 。 


15.2.2 ”Beautiful Soup 的 使 用 
bs4 使 用 比较 简单 。 
(1) 通过 解析 器 将 文本 “初始 化 ”为 soup 对 象 。 例 如 : 


from bs4 import BeautifulSoup 


Ete 


soup 


‘text.html’ 
BeautifulSsoup (open (file), 


#soup = BeautifulSoup (HtmlCode, 


‘lxml’) 
‘lxml’) 


(2) 通过 操作 soup 对 象 对 文本 进行 操作 。 
@ ”根据 标签 查找 (type:bs4_ obj ) : 


tag p = soup.p 


@ 获取 属性 : 


name = tag p.name 


Ee 
title 
title 


= tag p.attrs.get ('title') 


= tag pget('title") 


= tag pl"title"] 
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@ ”获取 文本 内 容 : 
string = tag p.string 


text = tag p.get text() 


content = tag p.contents 


# 过 滤 注 释 内 容 
if type(tag p.string)==bs4.element .Comment: 
Print (' 这 是 注释 内 容 ') 
else: 
print (' 这 不 是 注释 ' ) 
@ ”获取 子孙 节点 (tpye:generator ) : 
descendants = soup.p.descendants 
@ find&&find all 查找 : 
soup.find('a') 
soup.find('a',title='hhh') 
soup.find('a',id="'') 


soup.find('"'a',class ="'') 


soup.find all('a') 
soup.find alll(['a', 'p']) 
soup.find all('a',1limit=2) 


@@ 。 select 选择 (type:list) : 


soup.select('.main > ul > 1i > a')[0] .string 


可 以 通过 学 习 bs4 的 官方 文档 熟悉 bs4 的 操作 。 在 过 滤 这 一 环节 ，bs4 可 能 


是 最 方便 的 过 


滤器 了 。 正 常情 况 下 完全 可 以 满足 需要 ， 如 果 有 一 些 特殊 的 需求 ， 再 配合 re 模块 足够 完成 任 


数据 保存 


通过 bs4 过 滤 得 到 的 数据 既 可 以 保存 到 本 地 文本 ， 也 可 以 保存 到 远程 数据 
数据 库 更 加 无 压力 ) 。 


15.3.1 保存 数据 到 本 地 文本 


库 〈 保 存 本 地 


我 们 可 以 通过 接 下 来 的 代码 实现 将 数据 保存 在 本 地 文件 ， 由 于 礁 取 的 内 容 是 页 面 代码 
( 右 击 网 页 可 查看 源 代码 的 内 容 ) ， 因 此 以 html 格式 保存 〈 毕 竟 疏 取 的 是 整个 网 页 ) 。 


>>> with open('index-html'，'wb') as f: 
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王 .wWFite (TI) 


上 述 代码 中 对 应 的 rr 是 前 面 所 定义 的 ， 这 里 不 能 使 用 rr.decode0 写 入 ， 因 为 写 入 格式 是 
“wb”， 不 能 以 字符 串 形 式 写 入 ， 得 以 bytes 写 入 。index.html 如 果 存 在 就 覆盖 ， 否 则 创建 一 
个 。 当 然 ， 这 里 需要 有 创建 的 权限 ， 在 Window 中 就 无 须 考虑 该 问题 了 。 

至 于 index.html 是 否 已 下 载 ， 可 以 使 用 如 下 代码 检验 : 


>>> with open('index.html', 'r', encoding=’utf-8’) as f: 


print (f.read()) 


这 样 就 会 输入 所 得 结果 ， 当 然 也 可 以 进入 执行 ipython 的 当前 目录 下 查看 是 否 存 在 
index.html 文件 。 


这 里 使 用 with 代码 操作 ， 省 略 了 关闭 该 文件 的 操作 。 如 果 使 用 如 下 代码 ; 


>>> from urllib import request 


>>> res = request.urlopen('http://www.baidu.com') 
>>> data = res.read() 

>>> file = open('index.html', 'wb') 

>>> file.write(data) 


>>> file.close() 


就 得 加 上 closeO 函 数 关 闭 该 文件 了 。 


15.3.2 ”保存 数据 到 数据 库 

本 书 以 使 用 最 广泛 的 MySQL 数据 库 为 例 。Python 3.7 连接 到 MySQL 数据 库 的 模块 推荐 
使 用 PyMySQL 模块 ， 可 以 使 用 pip 安装 这 个 模块 : 

pip install pymysql 

使 用 PyMySQL 将 数据 插入 数据 库 中 ， 参 看 例子 15.3 (connDB.py) 。 
例子 15.3 ”使 用 PyMySQL 将 数据 插入 到 数据 库 


#!/usr/bin/env Python3 


import pymysql 


dbInfo = { 
'host': "localhost'， 上 mysql 服务 器 
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Python 3.7 编程 快速 入 门 


connDB.py 只 是 一 个 简单 的 示例 ， 健 壮 性 不 强 。 在 连接 数据 库 和 执行 SQL 语句 时 需要 考 
虑 到 异常 的 出 现 ， 请 读者 修改 代码 进行 测试 。 


网 页 


写 效率 ， 
了 解 怜 革 


过 


及 


本 章 小 结 


聆 虫 可 以 不 借助 框架 


， 而 使 


第 14 章 介绍 的 urllib， 但 为 了 提高 


候 取 效率 和 代码 编 


也 可 以 借助 框架 ， 比 如 本 章 介 绍 的 Beautiful Soup。 希 望 读者 通过 本 章 的 学 习 ， 不 仅 


原理 ， 还 能 学 会 站 在 


巨人 的 肩膀 上 ， 利 用 别人 的 


库 做 出 更 好 的 应 用 。 


259 


网 络 爬 虫 的 最 终 目 的 是 从 网 页 中 截取 自己 所 需 的 内 容 ， 以 收集 数据 。 最 直接 的 方法 是 用 
urllib2 请 求 网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 ， 但 网 站 不 可 能 都 是 统一 的 ， 怜 取 每 
个 页 面 都 可 能 需要 进行 微调 。 如 果 所 有 的 聆 虫 都 这 样 写 ， 工 作 量 未 免 太 大 了 ， 所 以 才 有 了 疏 
虫 框架 。 

Python 下 的 聆 虫 框架 有 不 少 ， 最 简单 的 就 要 数 Scrapy 了 : 首先 ， 资 料 比 较 全 ， 网 上 的 指 
南 、 教 程 都 比较 多 ; 其 次 ， 够 简单 ， 只 要 按 需 填空 即 可 ， 简 简单 单 地 就 能 获取 到 所 需 的 内 
容 ， 使 用 起 来 非常 方便 。 

本 章 的 主要 内 容 是 : 

@@ Scrapy 的 安全 。 

@ Linux 下 的 编辑 器 vim。 

@ 选择 器 XPath。 

@ Scrapy 实战 。 


16.1 安装 Scrapy 


Scrapy 的 官网 是 http:/scrapy.org/， 目 前 最 新 版 本 是 Scrapy 1.5。Scrapy 的 安装 方式 很 
多 ， 官 网 上 就 给 出 了 4 种 安装 方法 ， 即 PYPI、Conda、APT、Source 安装 。 


16.1.1 在 Windows 下 安装 Scrapy 


在 Windows 下 安装 Scrapy 除了 不 能 使 用 APT 外 ， 其 他 三 种 方法 都 是 可 以 的 。 这 里 选择 
最 简单 的 PyPI 安装 ， 也 就 是 pip 安装 。 用 pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 了 
Python， 并 配置 好 了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd、 执 行 一 


条 命令 即 可 。 打 开 cmd 并 执行 命令 : 
pip install scrapy 


执行 结果 如 图 16.1 所 示 。 


icrosoft Windows [版 本 10. 0. 16299. 192] ~ 
(c) 2017 Ji crosoft Corporation。 保 留 所 有 权利 。 


:\Users\kingYpip install scrapy 
ollecting scrapy 

Downloading http://pypi. doubanio. com/packages/a8/96/3affellcf53a5d210553691911 
|Bd5b453479038bb486f7387fdced4a3b83fFScrapy-1. 4. 0-py2. py3-none-any. whl {248kB) 

T 102kB 3.3NB7s eta 0:00: 

| 112kB 3.0MB/s eta 0:00 

| 122kB 3.7HB/s eta 0:0 

| 133kB 3. 4MB/s eta 0 

| 143kB 4. 2MB/s eta 

| 153kB 4. OMB/s eta 

| 163kB 5.2HB/s et 

| 174kB 5. 3IB/s 

| 184kB 5. SMB/s 

| 194kB 6. ONB/ 

| 204kB 6. 5N 

| 215kB 6.2 


(from scrapy) 
.doubanio. Srl ee 
(3. 


92 11. GB/ et 
983kB 11. 5MB/s eta 0 


图 16.1 使 用 pip 安装 Scrapy 


在 Windows 下 安装 Scrapy 可 能 会 遇 到 依赖 包 Twisted 无 法 安装 的 问题 。 此 时 需要 
Anaconda 后 使 用 conda 包 管 理工 具 来 
Anaconda 的 下 载 地 址 为 https://www.anaconda.com/download/， 然 后 使 用 如 下 命令 安 


安装 Scrapy for Python 3 


Scrapy: 


conda install scrapy 


16.1.2 在 Linux 下 安装 Scrapy 
在 Linux 下 只 能 采取 pip 的 安装 方式 来 安装 Scrapy， 只 是 要 各 
了 Python 2 和 Python 3， 因 此 需要 稍微 修改 一 下 安装 命令 : 


痊 。Linux 下 默认 安装 


python3 -m pip install scrapy 


执行 结果 如 图 16.2 所 示 。 
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Downioading httpe://nizrore, vsto.edb,on/pypi/meb/packages/do/2d/adit16146r41 
all oe rood de177 dc0207 sd Sai DT rd ed /pep ne 1 tar oe (245XB) 
100* | ENE O25 6+= .2 /= 

lBuilding wheels for collected packages: PyDispatcher, Twisted, pycparser 

Running setup.py bdist wheel for PyDispatcher ... done 

Stored in difoctory: /root/.cache/bip/uhecls/82)36/et/edlcd4sbaercelededr3d1cl 
Ib61£0454099e057922d4a5b742 

Running setup.py bdist wheel for Twisted ... done 

Stored in directoryi /zoot/.cache/pip/uhesls/d2/71/15/b6re7dd414ccra903430rba3 
675b558784575alb7 dr 3b319 


Running setup.py bdist wheel for pycparser ... done 


Stored in directory: /root/.cache/pip/wheels/3a/£3/d9/914600e023e38137f8bf6223 
|ersoas3dadefc9abso7aad0a5d4 

Successfully built PyDispatcher Twisted pycparser 

Installing collected packages: cssselect, lxml, queuelib, idna, pycparser, cffi, 
asnlcrypto, cryptography, pyOpenSsL, w3lib, parsel, PyDispatcher, zope.interfac 
le, constantly, incremental, attrs, Automat, hyperlink, Twisted, pyasnl, pyasni-m 
odules, service-identity, scrapy 

Successfully installed Automat-0.6.0 PyDispatcher-2.0.5 Twisted-17.9.0 asnicrypt 
-0.24.0 attrs-17.4.0 cffi-1.11.4 constantly-15.1.0 cryptography-2.1.4 cssselect 
-1.0.3 hyperlink-17.3.1 idna-2.6 incremental-17.5.0 lxml-4.1.1 parsel-1.3.1 pyOp 
lenssL-17.5.0 pyasn1-0.4.2 pyasni-modules-0.2.1 pycparser-2.18 queuelib-1.4.2 scr 
apy-1.5.0 service-identity-17.0.0 w3lib-1.18.0 zope.interface-4.4.3 
root@debianB: /home/king# |] 


图 16.2 使 用 apt-get 安装 scrapy 


查看 安装 的 scrapy 版 本 ， 如 图 16.3 所 示 。 


现在 Scrapy 已 经 安装 完毕 ， 可 以 使 上 


哪 king@debian8: ~ 


[kingedebian8:~5 scrapy 
scrapy 1.5.0 - no active project 


Usage: 
scrapy <command> [options] [args] 


Available commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


{ more ] More commands available when run from project directory 


Use "scrapy <command> -h”ro see more info about a command 
kingedebian8:~S 
kingedebian 


图 16.3 Scrapy 版 本 


1 .2 scrapy 选择 器 XPath 和 CSS 


在 使 


虫 原理 就 是 获取 网 页 返 


互 


了 。 本 节 就 以 Linux 为 例 来 介绍 如 何 使 


用 该 框架 。 


Serapy 怜 取 数据 前 需要 先 了 解 Scrapy 的 选择 器 。 在 前 面 章节 曾经 提 过 ， 网 络 疏 
， 然 后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 在 于 提取 内 


容 。 如 何 提取 呢 ? 使 用 Python 的 re 模块 ? 简单 网 页 用 re 模块 提取 还 可 以 ， 复 杂 一 点 的 内 容 
提取 就 麻烦 了 。 我 们 可 以 使 用 Scrapy 提供 的 简单 方法 来 提取 数据 ， 无 须 自己 编写 新 方法 。 


@ ”Scrapy 提取 数据 有 自己 的 一 套 机 制 。 它 们 被 称 作 选择 器 ( seletors) ， 通 过 特定 的 
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XPath 或 者 CSS 表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

@ XPath 是 一 种 用 来 在 XML 文件 中 选择 节点 的 语言 ， 也 可 以 用 在 HIML 上 。CSS 是 
一 种 将 HTML 文档 样式 化 的 语言 。 选 择 器 由 它 定 义 ， 并 与 特定 的 HTML 元 素 的 样 
式 相 关联 。 

Scrapy 的 选择 器 构建 在 lxml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 ， 所 

以 可 视 自己 喜好 而 定 。 


16.2.1 XPath 选择 器 

XPath 是 一 种 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 属 
性 进行 遍历 。XPath 含有 100 多 个 内 建 的 函数 ， 可 用 于 字符 串 值 、 数 值 、 日 期 和 时 间 比 较 、 
节点 和 QName 处 理 、 序 列 处 理 、 逻 辑 值 等 。 在 网 络 怜 虫 中 只 需要 利用 XPath“ 采 集 ” 数 据 ， 
如 果 想 深入 研究 ， 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 以 及 
文档 节点 (或 称 为 根 节点 ) 。XML 文档 是 被 作为 节点 树 来 对 待 的 。 树 的 根 被 称 为 文档 节点 或 
者 根 节点 。 下 面 做 一 个 简单 的 XML 文件 (参看 例子 16.1) ， 以 便 演示 。 


例子 16.1 XML 文件 演示 


cd 

mkdir scrapy 

cd code/scrapy 

mkdir -pv scrapy/seletors 
cd scrapy/seletors 


Vi superHero.xml 
在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors 以 及 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 


01 <superhero> 
02 <class> 


03 <name lang="en">Tony Stark </name> 
04 <alias>Iron Man </alias> 

05 <sex>male </sex> 

06 <birthday>1969 </birthday> 

07 <age>47 </age> 


08 </class> 
09 <class> 


10 <name lang="en">Peter Benjamin Parker </name> 
1 <alias>Spider Man </alias> 

12 <sex>male </sex> 

3 <birthday>unknow </birthday> 

14 <age>unknown </age> 


15 </class> 
16 <class> 
27 <name lang="en">Steven Rogers </name> 
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18 <alias>Captain America </alias> 


3 <sex>male </sex> 
20 <birthday>19200704 </birthday> 
21 <age>96 </age> 


22 </class> 
23 </superhero> 


很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 的 效果 如 图 16.4 所 示 。 


This XML file does not appear to have any style information associated with it. The document tree is showm below. 


v Csuperhero; 
Y<classy 
nane 1 ang=*enr >Tany Stark</name; 
alias>Iron Man</alias; 
sex male </ sex 
Cbirthday>1969¢/birthday; 
TY age> 


<name lang="en’ Peter Benjanin Parker /nane, 
alias>Spider Man</alias: 
sex>male</ sex 
<birthday>urknow/birthday; 
《ageyurlamownc/ age 
/class> 
v Cclass 
<nane lane="en' >Steven Rogers¢/rane: 
<alias’Capt ain Americac/alias> 
sex male /sex 
<birthday>19200704</birthday; 
《age>96</ age 
/class; 
/superhero: 


图 16.4 选择 器 演示 文件 superHero.xml 

后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 、 

<alias>Iron Man</alias> 是 元 素 节 点 、 i 是 属性 节点 。 

从 节点 的 关系 来 看 ， 第 一 个 Class 节点 是 name、alias、sex、 ss age 节点 的 父 节 点 
(Parent) ， 反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节 点 
(Childer) 。name、alias、sex、birthday、age 节点 之 间 互 为 同胞 节 ， ,, (sibling) 。 这 只 是 

个 简单 的 例子 ， 如 果 节 点 的 “深度 ”足够 ， 还 会 有 先辈 节点 ( Ancestor ) 和 后 代 节 点 
(Descendant) 。 


XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 16-1 中 列 出 了 最 常用 的 路 径 表 达 


式 。 
表 16-1 路 径 表 达 式 
表达 式 描述 
nodeName 选取 此 节点 的 所 有 子 节点 
/ 从 根 节点 选取 
I 从 匹配 选 一 一 一 一 一 一 一 不 考虑 它们 的 位 置 
选取 当前 节 
昌 选取 当前 节点 的 父 节 让 
@ 选取 属性 
a 匹配 任何 元 素 节点 
@* 匹配 任何 属性 节点 
NodeO 匹配 任何 类 型 的 节点 
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第 16 章 Scrapy 反 虫 


下 面 用 XPath 选择 器 来 “采集 ”XML 文件 中 所 需 的 内 容 ， 做 好 准备 工作 。 执 行 命令 : 


python3 

from scrapt.selector import Selector 
with open(‘./superHero.xml’,’r’) as fp: 
body = fp.read() 

Selector (text=body) .xpath(‘/*’) .extract () 


首先 启动 Python， 导 入 scrapy.selector 模块 中 的 Selector， 然 后 打开 superHero.xml 文件 ， 
ge body 变量 中 ， 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 
。 执 行 结果 如 图 16.5 所 示 。 


哪 king@debian8: ~/code/crawler_ script 

Python 3.4.2 (default, Oct 8 2014, 10:45:20) 

{GCC 4.9.1] on linux 

Type "help", "copyright", "credits" or "license" for more information. 
|>>> from scrapy.selector import Selector 

>>> with open('superHero.xml', ‘r') as fp: 

i body ” fp.read() 


>>> body 

superhero>\n<class>\n\t<name lang-"en">Tony Stark </name>\n\t<alias>Iron Man 
alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>Vn< 
ass>\n<class>\n\t<name langn"en">Peter Benjamin Parker </name>\n\t<alias>Spidar 


an </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unkn 
</age>\n</class>\n<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias: 
lptain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\ 中 \ 


|>>> Selector (text"body) .xpath('/*') .extract () 
‘<html><body><superhero>\n<class>\n\t<name lang""en">Tony Stark </name>\n\t<aldil 
s>Iron Man </alias>\n\t<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>4| 
</age>\n</class>\n<class>\n\t<name lang""en">Peter Benjamin Parker </name>\n\tB 
alias>Spider Man </alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n| 
t<age>unknown </age>\n</class>\n<cclass>\n\t<nane langr"en">steven Rogers </nane| 


\n\t<ailias>Captain America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 < 4 
birthday>\n\t<age>96 </age>\n</class>\n</superhero></body></html>"] 


16.5 XPath 选择 器 准备 工作 


注 上 53 选择 器 在 从 根 节点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 
因为 示例 文件 并 不 是 一 个 标准 的 HTML 文件 ， 所 以 在 选择 器 中 自动 添加 了 <html> 和 
<body> 标 签 。 也 就 是 说 ， 在 选择 器 看 来， 示例 文件 的 根 节点 并 不 是 <superhero>， 而 是 


下 面 来 看 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 16.6 所 示 。 
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|>>> print(" Re xmi 中 第 一 个 class 的 内 雁 *) 

采集 superHero.xmi 中 第 一 个 class 的 内 容 

>>> sasssozkssxs=bad: BE /B/G Asn/ Gaal ) sxszacz 

I ST Nm TT tar /am ES /Tas s\n\t 
|<sex>male </sex>\n\c<pircnday>1353 </pirtnday>\n\ccage>s7 </age>\n</class>"] 


>>> 


>>> print ("采集 superHero.xmi 中 最 后 一 个 class 的 和 内容") 


采集 superHero.xml 中 : 


最 后 一 个 class 的 内 容 


>>> Solocror lx -bo 


ra'<ET33SSCRVEZESRE Tn er C/T 
aiaa>\nNc<aex>male </sex>\n\c<birthday>19200704 </birthday>\n\t<cage>96 </age>\n 


</class>"] 


|>>> print ("采集 superHero.xml 中 name 属 性 为 en 的 数据 ') 
采集 superHero. ee 


>>> 


ra SR TT Sa Tm DT senjamin Parker 


|</name>', u'<name lang-"en">Steven Rogers </name>"] 


>>> 


>>> print (' 末 集 superHero.xml 中 倒数 第 二 个 class 的 name 节 点 的 文本 ') 
采集 superHero.xmi 中 倒 数 第 二 个 class 的 name 节 点 的 文本 


>>> 
) extracel) 


Sperbero/ Sls Di /cans/ rex: 


[lu'Peter Benjamin Parker '] 


>>> 


>>> pziss(' 以 下 展示 的 是 隐 套 赤 择 全 ') 
以 下 展示 的 是 获 套 选择 器 


|>>> subBody = Selector(text-body) .xpath{('/html/body/superhero/class{last ()-1]"). 
一 


exrr 
>>> subBody 


[u'<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man 
</allas>\n\c<sex>male </sex>\n\ccbircnday>unknow </Dirthday>\n\ccage>unknown </ 


lage>\n</class>"] 
>>> 


图 16.6 XPath 选择 器 收集 数据 


XPath 中 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 XPath 


选择 器 挑选 数据 即 可 。 复 杂 一 


的 数据 也 可 以 分 离 出 来 。 


16.2.2 CSS 选择 器 


CSS 就 是 大 家 熟知 的 
多 条 声明 。 


点 的 ， 用 配套 选择 就 能 很 方便 地 完成 。 只 要 有 点 耐心 ， 再 复杂 


层 登 样式 表 。CSS 规则 由 两 个 主要 的 部 分 构成 : 选择 器 以 及 一 条 或 


selector {declarationl; declaration2; ... declarationN } 


CSS 是 网 页 代码 中 非常 


重要 的 一 环 ， 即 使 不 是 专业 的 Web 从 业 人 员 ， 也 有 必要 认真 学 习 


一 下 。 这 里 只 简略 介绍 一 下 与 息 虫 密切 相关 的 选择 器 。 表 16-2 中 列 出 了 CSS 经 常 使 用 的 几 


个 选择 器 。 


表 16-2 CSS 选择 器 


.Class 选择 class="intro" 的 所 有 元 素 
#id 选择 id="firstname" 的 所 有 元 素 
四 选择 所 有 元 素 

element 选择 所 有 <p> 元 素 


element:element 


element element divp 


选择 所 有 <div> 元 素 和 所 有 <p> 元 素 
选择 <div> 元 素 内 部 的 所 有 了 元 素 


[attribute] [target] 


选择 带 有 target 属性 的 所 有 元 素 


[attribute=value] [target= blank] 选择 target=”blank" 的 所 有 元 素 
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与 XPath 选择 器 相 比 较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 一 点 缺 
陷 。 下 面 就 来 试验 一 下 CSS 选择 器 是 如 何 收集 数据 的 ， 参 见 图 16.7。 


>>> 到 +: » 
SR lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 


<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
lias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\n</class>', u'<class>\n\tename lang="en">Steven Rogers </name>\n\t<alias>Captai 
n America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 


>96 </age>\n</class>"] 
>>> 
>>> seleccor (cexc=body) .css('class name') .extract () 
TRS TTR Tang="en">Peter Benjamin 


', u'<name lang="en">Steven Rogers </name>'] 


>>> Selector (text=body) .css('class name') .extract 0] 
本 
>>> Seleccoz (CexC=body) .css(' [lang]') .exczacc() [0] 
Iu'<name lang="en">Tony Stark </name>' 


>>> Seleccor (eee bod). oss (ng="en letracE Ll) 
Tu'<SSRE TNT NE TSnY ESTK </name>’, u'<name lang="en">Peter Benjamin 


', u'<name lang="en">Steven Rogers </name>'] 


图 16.7 CSS 选择 器 收集 数据 


pH 


集 数 据 会 更 加 方便 。 


16.2.3 ”其 他 选择 器 
XPath 选择 器 还 有 一 个 .re0 方 法 ， 用 于 通过 正则 表达 式 来 提取 数 


者 .css0) 方 法 ，.re0 方 法 返回 unicode 字符 串 的 列表 ， 所 以 无 法 构造 碟 套 式 的 .reO 调 上 
法 如 图 16.8 所 示 。 


| >>> 


Parker 


Parker 


为 CSS 选择 器 和 XPath 选择 器 都 可 以 翌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 一 来 收 


据 。 不 同 于 .xpath0) 或 
， 使 用 方 


>>> Selector (text=body) .xpath('/html/body/superhero/class[1]') .re('>.*?<') 
|[u'>Tony Stark <', u'>Iron Man <', u'>male <', u'>1969 <', u'>47 <'] 


图 16.8 re 选择 器 收集 数据 


这 种 方法 并 不 常用 ， 还 不 如 在 程序 中 添加 代码 ， 直 接 用 re 模块 方便 。 


有 就 不 做 说 明了 ， 有 兴 


Scrapy 选择 器 建 于 Ixml 之 上 ， 所 以 也 支持 一 些 EXSLT 扩展 。 这 是 
趣 的 读者 可 以 自行 搜索 。 


16. 3 Scrapy 疏 虫 实战 : 今日 影视 


打 个 比方 ， 在 前 面 章节 中 使 用 re 模块 怜 取 网 页 相当 于 写作 文 ， 使 


Serapy 疏 取 就 相当 


于 做 填空 题 ， 只 需要 把 相应 的 要 求 填 入 空白 框 里 就 可 以 了 。 


267 


16.3.1 创建 Scrapy 项 目 


似乎 所 有 的 框架 都 是 从 创建 项 目 开 始 的 ，Scrapy 也 不 例外 。 在 这 之 前 要 说 明 的 是 Scrapy 
项 目的 创建 、 配 置 、 运 行 等 操作 ， 默 认 都 是 在 终端 下 进行 的 。 不 要 觉得 很 难 ， 其 实 它 真 的 非 
常 简单 ， 填 空 题 而 已 。 如 果实 在 无 法 接受 ， 也 可 以 花 点 心思 配置 好 Eclipse， 在 这 个 万 能 IDE 
下 操作 。 推 荐 在 终端 操作 ， 虽 然 开 始 可 能 因为 不 熟悉 而 出 现 很 多 错误 ， 不 过 错 多 了 ， 印 象 就 
深刻 了 ， 也 就 自然 学 会 了 。 打 开 Putty 连接 到 Linux， 开 始 创建 Scrapy 项 目 。 执 行 命令 : 


cd 
cd code/scrapy/ 
scrapy startproject todayMovie 


tree todayMovie 
执行 结果 如 图 16.9 所 示 。 
Es 


king@debian8:~/code/scrapy$ scrapy startproject todayMovie 

New Scrapy project ‘todayMovie', using template directory '/home/ki 

lib/python3.6/site-packages/scrapy/templates/project', created in: 
/home/king/code/scrapy/todayMovie 


You can start your first spider with: 
cd todayMovie 


scrapy genspider example example.com 
king@debian8:~/code/scrapy$ tree todayMovie/ 
todayMovie/ 

HF scrapy.cfg 


[一 todayMovie 
Finit_.py 
| Items.py 
FE middlewares.py 
FE pipelines.py 
FF _pycache_ 

于 settings.py 
spiders 
_init .py 


pycache__ 


4 directories, 7 files 
kingedebian8:~/code/scrapys [| 


图 16.9 创建 todayMovie 项 目 


口 
~ 
ng/anaconda3/ 


tree 命令 将 以 树 形 结构 显示 文件 目录 结构 。tree 命令 默认 情况 下 


命令 apt-get install tree 来 安装 这 个 命令 。 


这 里 可 以 很 清楚 地 看 到 todayMovie 目录 下 的 所 有 子 文件 和 子 目 录 ， 至 此 Scrapy 项 目 
todayMovie 基本 上 完成 了 。 按 照 Scrapy 的 提示 信息 ， 可 以 通过 Scrapy 的 Spider 基础 模板 顺 
便 建立 一 个 基础 的 仆 虫 ， 相 当 于 把 填空 题 打印 到 试卷 上 ， 等 待 填空 了 。 当 然 ， 也 可 以 不 用 


Scrapy 命令 建立 基础 息 虫 ， 如 果 非 要 体验 一 下 DIY 也 是 可 以 的 。 这 是 


是 没有 安装 的 ， 可 以 执行 


有 E 我 们 还 是 怎么 简单 怎么 


来 ， 按 照 提示 信息 ， 在 终端 执行 命令 : 


cd todayMovie 


scrapy genspider wuHanMovieSpider mtime.com 
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执行 结果 如 图 16.10 所 示 。 


4 directories, 7 files 

kingedebian8:~/code/scrapyS cd todayMovie/ 

kingedebian8:~/code/scrapy/todayMovies scrapy genspider wulHanmovieSpider mtime.c 

om 

Created spider 'wulanmovieSpider' using template 'basic' in module: 
todayMovie. spiders.wuHanmovieSpider 

kingedebian8:~/code/scrapy/todayMovies 


图 16.10 创建 基础 仆 虫 


至 此 ， 一 个 基本 的 疏 虫 项 目 已 经 建立 完毕 ， 包 含 了 一 个 Scrapy 怜 虫 所 需 的 基础 文件 。 到 


这 一 步 可 以 说 填空 题 已 准备 完毕 ， 后 面 的 工作 就 纯粹 是 填空 了 。 


接 下 来 介绍 一 下 scrapy 


genspider 命令 ， 它 是 scrapy 最 常用 的 几 个 命令 之 一 ， 使 用 方法 如 图 16.11 所 示 。 


Ca 


king@debian8:~/code/scrapy/todayMovies scrapy genspider -h 


scrapy genspider [options] <name> <domain> 


Generate new spider using pre-defined templates 


show this help message and exit 

List available templates 

Edit spider after creating it 
-dumpwTEMPLATE，-d TEMPLATE 

Dump template to standard output 


--template~TEMPLATE, -上 TEMPLATE 
Uses a custom template. 
IE the spider already exists, overwrite it wi 
template 


1og file. if omitted stderr will be used 
1=LEVEL, -L LEVEL 
1og level (default: DEBUG) 


图 16.11 scrapy genspider 命令 帮助 


th the 


因此 ， 上 面 的 命令 意思 是 使 用 scrapy genspider 命令 创建 一 个 名 字 为 wuHanMovieSpider 


的 聆 虫 脚本 ， 这 个 脚本 搜索 的 域 为 mtime.com。 


16.3.2 ”Scrapy 文件 介绍 


Scrapy 项 目的 所 有 文件 都 已 经 到 位 ， 下 面 来 看 看 各 个 文件 的 作 上 


(1) 最 项 层 的 todayMovie 文件 夹 是 项 目 名 ， 这 个 没什么 好 说 的 。 


(2) 第 二 层 中 有 一 个 与 项 目 同名 的 文件 夹 todayMovie 和 一 个 文件 scrapy.cfg。 文 件 夹 


todayMovie 是 模块 〈 也 可 以 叫 作 包 ) ， 所 有 的 项 目 代 码 都 在 这 个 模 
加 。scrapy.cfg 文件 是 整个 Scrapy 项 目的 配置 文件 ， 内 容 如 下 : 


01 # Automatically created by: scrapy startproject 
2 二 


块 〈 文 件 夹 或 者 包 ) 内 添 


03 # For more information about the [deploy] section see: 


04 # http://doc.scrapy.org/en/latest/topics/scrapyd.html 


05 
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06 [settings] 

07 default = todayMovie -settings 
08 

09 [deploy] 

10 #url = http://localhost:6800/ 
11 project = todayMovie 


除去 以 “#” 为 开头 的 注释 行 ， 整 个 文件 只 声明 了 两 件 事 : 一 是 定义 默认 设置 文件 的 位 置 
为 todayMovie 模块 下 的 settings 文件 ， 二 是 定义 项 目 名 称 为 todayMovie。 
第 二 层 中 还 有 一 个 spiders 的 文件 夹 ， 下 面 有 一 个 _init .py 文件 ， 说 明 这 个 文件 夹 也 是 
一 个 模块 ， 包 含 本 项 目 中 所 有 的 爬虫 文件 。 


(3) 在 第 三 层 中 有 6 个 文件 和 一 个 文件 夹 〈 实 际 上 也 是 模块 ) 。 看 起 来 很 多 ， 实 际 上 有 
用 的 也 就 3 个 文件 ， 即 items.py、pipelines.py、settings.py; 其 他 的 3 个 文件 以 pyc 结尾 的 是 
同名 Python 程序 编译 得 到 的 字 节 码 文件 ， 其 中 settingspyc 是 settings.py 的 字 节 码 文 件 ， 
_init .pyc 是 _init .py 的 字 节 码 文件 ， 用 来 加 快 程序 的 运行 速度 ， 可 以 忽视 。_init .py 
文件 是 一 个 空 文件 ， 在 此 处 的 唯一 作用 就 是 将 它 的 上 级 目录 变 成 一 个 模块 。 也 就 是 说 ， 在 第 
二 层 的 todayMovie 模块 下 ， 如 果 没 有 _init _.py 文件， 那么 todayMovie 就 只 是 一 个 单纯 的 文 
件 夹 。 在 任何 一 个 目录 下 添加 一 个 空 的 _init_.py 文件 ， 就 会 将 该 文件 夹 编 程 模块 化 ， 可 以 
供 Python 导入 使 用 。 

@ settings.py 是 上 层 目录 中 scrapycfg 定义 的 设置 文件 ， 内 容 如 下 : 

dn =r CoadLngs net=0 =*= 

02 

03 # Scrapy settings for todayMovie project 


04 3# 
05 # For simplicity, this file contains only settings considered important 


or 
06 # commonly used. You can find more settings consulting the 


documentation: 


07 3# 

08 # https://doc.scrapy.org/en/latest/topics/settings.html 

09 # https://doc.scrapy.org/en/latest/topics/downloader-— 
middleware.html 

10 # https://doc.scrapy.org/en/latest/topics/spider-middleware.html 

i 

12 BOT NAME = "todayMovie' 

JS 

14 SPIDER MODULES = ["'todayMovie.spiders'] 

15 NEWSPIDER MODULE = "todayMovie.-spiders' 

16 

Wt 


18 # Crawl responsibly by identifying yourself (and your website) on the 
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user-agent 
19 #USER AGENT = "todayMovie (+http://www.yourdomain.com)' 
20 
21 # Obey robots.txt rules 
22 ROBOTSTXT OBEY = True 


@ items.py 文件 的 作用 是 定义 仆 虫 最 终 需 要 哪些 项 ， 内 容 如 下 : 
0 A == Coding: utf=8 =*= 

02 

03 # Define here the models for your scraped items 


04 # 


05 # See documentation in: 


06 # http://doc.scrapy.org/en/latest/topics/items.html 


07 

08 import scrapy 

09 

10 

11 class TodaymovieItem(scrapy.Item): 

bp # define the fields for your item here like: 
了 有 # name = scrapy.Field() 

14 pass 


@ pipelines.py 文件 的 作用 是 扫尾 。Scrapy 疏 虫 仆 取 了 网 页 中 的 内 容 后 ， 怎 么 处 理 这 些 
内 容 就 取决 于 pipelines.py 了 。pipeliens.py 文件 的 内 容 如 下 : 


DL dn EE BA 二 一 


02 

03 # Define your item pipelines here 

04 # 

05 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 
07 

08 

09 class TodaymoviePipeline (object): 

10 def process item(self, item, spider): 

站 return item 


@ _init .jpy、_init .pyc 文件 刚才 已 经 介绍 过 了 了， 基本 不 起 作用 。 
wuHanMovieSpider.py 文件 是 刚才 用 scrapy genspider 命令 创建 的 爬虫 文件 ， 内 容 如 下 : 


0 #4 =*= Codings tf=8 =*= 


02 import scrapy 
UE 
04 


05 class WuhanmoviespiderSpider(scrapy.Spider): 
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06 name = "wuHanMovieSpider" 


07 allowed domains = ["mtime.com"] 
08 start urls = ( 

09 'http://www.mtime.com/', 

10 ) 

了 出 

2 def parse(self, response): 

3 pass 


在 本 次 的 候 虫 项 目 示例 中 ， 需 要 修改 、 填 空 的 只 有 4 个 文件 ， 分 别 是 items.py、 
settings.py 、 pipelines.py、 wuHanMovieSpiderpy。 其 中 ，items.py 决定 爬 取 哪些 项 目 ， 
wuHanMovieSpiderpy 决定 怎么 息 ，settings.py 决定 由 谁 去 处 理 爬 取 的 内 容 ，pipelines.py 决定 


疏 取 后 的 内 容 怎 样 处 理 。 


16.3.3 ”选择 息 取 的 项 目 


My first scrapy crawl 怎么 简单 、 怎 么 清晰 就 怎么 来 。 这 个 疏 虫 只 疏 取 当 E 


以 只 需要 在 网 页 中 采集 这 一 项 即 可 。 选 择 疏 取 的 项 目 内 容 保存 在 items.py 中 。 
修改 items.py 文件 如 下 : 


Ol = ing ner = 

02 

03 # Define here the models for your scraped items 
04 3# 

05 # See documentation in: 


06 # http://doc.scrapy.org/en/latest/topics/items.html 


07 

08 import scrapy 

09 

10 

11 class TodaymovieItem(scrapy.Item): 

2 # define the fields for your item here like: 
3 # name = scrapy.Field() 

14 #pass 

15 movieTitlecn = scrapy.Field() # 影 片 中 文 名 
16 movieTitleEn = scrapy.Field() # 影 片 英文 名 
17 director = scrapy.Field() # 导 演 

18 runtime = scrapy.Field() # 电 影 时 长 
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电影 名 字 ， 所 


由 于 Python 中 严格 的 格式 检查 ， 因 此 最 常见 的 异常 IndentationError 会 经 常 出 现 。 如 果 使 : 


用 的 编辑 器 是 vi 或 者 vim， 强 烈 建议 修改 vi 的 全 局 配置 文件 /etc/vim/vimre， 将 所 有 的 4 ; 
个 空格 变 成 tab。 


与 最 初 的 items.py 比较 一 下 ， 修 改 后 的 文件 只 是 按照 原文 的 提示 添加 了 需要 怜 取 的 项 


目 ， 然 后 将 类 结 


尾 的 pass 去 掉 了 。 这 个 类 继承 于 Scrapy 的 Item 类 ， 没 有 本 


EE 载 Python 类 


_init 的 解析 函数 ， 没 有 定义 新 的 类 函数 ， 只 定义 了 类 成 员 。 


16.3.4 ”定义 如 何 爬 取 
怎样 仆 取 的 内 容 写 在 wuHanMovieSpider.py 中 。 
修改 spiders/wuHanMovieSpiderpy， 内 容 如 下 : 


QL OdInga DEE 


02 import 


scrapy 


03 from todayMovie.items import TodaymovieItem 


04 import re 

05 

06 

07 class WuhanmoviespiderSpider (scrapy.Spider) : 
08 name = "wuHanMovieSpider" 

09 allowed domains = ["mtime.com"] 

10 start urls = [ 

1 


'http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/', 
到 ] # 这 个 是 武汉 汉 街 万 达 影 院 的 主页 


I3 

14 

15 def parse(self, response): 

16 selector = response.xpath('/html/body/script [3] /text () ') [0] .extract () 
| moviesStr = re.search('"movies":\[.*?\]', selector) .group () 
18 moviesList = re.findall('{.*?}', moviesstr) 

19 items = [] 

20 for movie in moviesList: 

时 mDic = eval (movie) 

22 item = TodaymovieItem() 

2 item['movieTitleCn'] = mDic.get ('movieTitleCn') 

24 item['movieTitleEn'] = mDic.get ('movieTitleEn') 

2 item['director'] = mDic.get('director') 

26 item['runtime'] = mDic.get('runtime') 

a items .append (item) 
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28 return items 


在 这 个 Python 文件 中 ， 首 先导 入 了 scrapy 模块 ， 然 后 从 模块 ( 包 ) todayMovie 中 的 
items 文件 中 导入 了 TodaymovieItem 类 ， 也 就 是 刚才 定义 需要 怜 取 内 容 的 那个 类 。 
WuhanmovieSpider 是 一 个 自 定义 的 息 虫 类 ， 是 由 scrapy genspider 命令 自动 生成 的 。 这 个 自 定 
义 类 继承 于 scrapy.Spider 类 。 第 8 行 的 name 定义 的 是 聆 虫 名 。 第 9 行 的 allowed_domains 定 
义 的 是 域 范围 ， 也 就 是 说 该 朴 虫 只 能 在 这 个 域内 礁 行 。 第 11 行 的 start_urls 定义 的 是 怜 行 的 
网 页 ， 这 个 仆 虫 只 需要 扑 行 一 个 网 页 ， 所 以 在 这 里 start_urls 可 以 是 一 个 元 组 类 型 。 如 果 需 要 
息 行 多 个 网 页 ， 最 好 使 用 列表 类 型 ， 以 便于 随时 在 后 面 添加 需要 息 行 的 网 页 。 

有 息 虫 类 中 的 parse 函数 需要 参数 response 〈 请 求 网 页 后 返回 的 数据 ) ， 至 于 怎么 从 
response 中 选取 所 需 的 内 容 ， 一 般 采 取 两 种 方法 : 一 是 直接 在 网 页 上 查看 网 页 源 代码 ， 二 是 
自己 写 一 个 程序 ， 用 urllib.request 将 网 页 返回 的 内 容 写 入 文本 文件 中 ， 再 慢 慢 地 查询 。 

打开 Chrome 浏览 器 ， 在 地 址 栏 输入 怜 取 网 页 的 地 址 ， 打 开 网 页 ， 如 图 16.12 所 示 。 


人 
< | CG | © theatermtimecom/China Hubei_Province Wuhan 


加 村 
武汉 市 武昌 区 水 黑 湖 椒 河 汉 衡 1 号 万 达 广 
电 活 :027-87713677 。 营业 时 间 ; 10 


3 EE 
[CC3 ES 


22481at 
11 月 28 日 上 映 8 部 -二 高 


人 天 11 有 28 日 局 meg 
图 sr*s 加 = 目 s* EE 


7 = | 
| | [2 
图 16.12 ” 怜 虫 来 源 网 页 


同一 网 页 内 的 同一 项 目 格式 基本 上 都 是 相同 的 ， 即 使 略 有 不 同 ， 也 可 以 通过 增加 挑选 条 
件 将 所 需 的 数据 全 部 放 入 选择 器 。 在 网 页 中 右 击 空白 处 ， 在 弹出 菜单 中 选择 “查看 网 页 源 代 
码 ”， 如 图 16.13 所 示 。 
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今天 11 月 28 日 


洁 :观看 条 内 影片 (VIPF. IMAX.、 IMAX3D. 
XLAND 厅 、4D 厅 .ScreenX 厅 ) 时 , 身高 
不 足 1.3 米 的 儿 重 也 器 购 村 入 场 


返回 (8) A 荐 关 


| 


本 与 存 为/A)-- 
1 mp. 
投 时 ()-。 


和 成 中 文 (简体) mm 寻 梦 环 游记 


AdBlock 
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IDM Integration Module 


查看 列 页 源 代码 (V) CurlsU 
检查 (N) 


图 16.13 查看 网 页 源 代码 


打开 源 代码 网 页 ， 按 CtrltF 组 合 键 ， 在 查找 框 中 输入 “ 寻 梦 环 游记 ”后 按 回 车 键 ， 查 找 
结果 如 图 16.14 所 示 。 


Cl ERY ERE x / 区 1 view-sourcetheater.m x 


© | © view-source:theater.mtime.com/Ch 


<dl ii 中 "commertsRegion” class=clearfix xj * 
class="p20” style=”” 
nt9” styler"display:none;” 
class=’ Et"YY DY DYpY 
div; 
i I4_A Cinena Coments_Right “>¢/ dv div> Ydivy 
/div, div id="MAA Cinena Footer">/divy </ 二 VC/ 本 
《ecript type"text/javascript” 

Var branchList = [|] 
/script> script type text/javascript” 

var cinenaShowt inesScriptYariables 了 {cinenald”; 好 16, “nanecn”: 武汉 汉 街 万 达 广场 

店 ", “address”:“ 武 汉 市 武昌 区 水 果 湖 楚 河 汉 街 1 号 万 达 广场 五 层 ", -cityid": 561, “telphone” 027- 
B87713677, "longitude”: 114. 3512, “latidude” :30. 128, "rating”: 7. T76044, "roadliner 车 、19 
路 、537 路 、581 路 、563 路 、64 路 道 白 芒 街 站 , “novieCount” :8, “showtineCount”:76, “currentDate”: “2017-11- 
28", “today” ”2017-11-28", “valueDates”: [{" date”: nev Date ("Roveaber, 28 2017 
00: 00:00°), “datelJr1”: “http: //theater. mtine. con/ China_Hibei_ Province_Wuhan_ Wuchang /4316/? 副 
d=20171128"}, { date”- new Date (Decenber，1 2017 
20171201"}], “novies”: [{ novieId”: 227434, -aovieTitleCn :性 要 环 洲 
“novierit eBn’: “Coco”, “coverSre”: “http: //3ne5. atine. cr/ at/2017/ 10/33/ 101938.17733324192K243k 人 4 


jpe”, “bigRating”: 8, “snallRatine”- 9, "trailerId”: 68385, "director”: 李 " 昂 克 里 亲 
萨 雷 兹 *，actor2”: “ 盖 尔 “ 加 西亚 * 贝 纳 尔 ”, “runt ine”:“109 分 钟 ",“property”: 动画 /冒险 / 喜 删 /: 庭 /奇幻 / 数 
此 /悬疑 "“viewProperty 动画 /冒险 /喜剧 /家 

,movieDetai Dr” “http: //novie. tine. con/ 22743]", es “201 TT 
eld”: 222372, “novieTitleCn”“ 追 

捕 ", “novieTitleEn”: "anhiuit”, “coverSrc”: "http://ineS. ntine. cn/at/2017/11/15/092729, 26076451_182X243 
Xd. ipe”, “bigRating” .6, “snalIRting” :0, "trailerId” :68525, "director”: “吴宇森 "，actor 一 张 通 

巴 "，“actor2”:“ 福 山 雅 治 ",“runt ine”:“107 分 钟 ”,“property”; “动作 /剧情 /犯罪 “viewProperty”- “动作 / 吕 情 / 
犯罪 ”, “movieDetailUrl”: “http: /novie. ntine. com/ 222372/", “year”: “2017"}, 
novield”; 70233, "movieTitleCn”: “正义 联 盟 ". "aovieTitleEmr “Justice 
League”, “coverSre”: “http: /1 ing5.atiae. cn/ nt/2017/11/22/115051.54720032_192(243(4. ipe”, bigRating”:7 
，“smallRatine”: 4, “trailerId”; 69477, “director”.“ 扎 克 - 施 亲 德 ", “actor”; “本 阿 弗 莱克 ","actor2”: “ 羡 尔 
“加 朵 “runt ine”.“120 分 钟 ”，“property”: “动作 / 冒 阴 / 育 幻 /科幻 ", “viewProperty :动作 /冒险 /奇幻 / 科 
4", “novieDetailUr}”: http- //aovie. ntine. coa/ T0233/", “year”: “2017"}, 

{novieId”: 237204, “movieTitleCn” “引爆 

者 ", “novieTitleEn”: “Explosion”, “coverSrc”: "http://ine5. tine. c/at/ 2017/10/ 25/111645, 23140328_182X2 
,bigRating” 7," smal Rat ing” :4, “trailerId" :68547, “ddrector”.“ 弟 征 " “actor”“ 段 交 

“105 分 钟 ”, “property” 


图 16.14 ”查找 关键 词 
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整个 源 代码 网 页 只 有 一 个 查询 结果 ， 很 明显 。 幸 运 的 是 ， 所 有 的 电影 信息 都 在 一 起 ， 是 以 


json 格式 返回 的 ， 可 以 很 容易 地 转换 成 字 幢 


怎样 才能 得 到 这 个 “字典 ” 


本 中 执行 语句: 


格式 获取 数据 〈 也 可 以 直接 用 json 模块 获取 数据 ) 。 
Gson 格式 的 字符 串 ) 呢 ?如 果 幅 套 的 标签 比较 多 ， 可 以 用 
XPath 舱 套 搜索 的 方式 来 逐步 定位 。 由 于 这 个 页 面 的 源码 不 算 复 杂 ， 因 此 直接 定位 Tag 标签 
后 逐个 确认 标签 就 可 以 了 。json 字符 串 包含 在 script 标签 内 ， 数 一 下 script 标签 的 位 置 ， 在 脚 


selector = response.xpath('/html/body/script[3]/text()') [0] .extract( ) 


首先 选择 页 面 代码 中 html 标签 中 body 标签 下 的 第 4 个 script 标签 ， 然 后 获取 这 个 标签 
的 所 有 文本 并 释放 出 来 。 选 择 器 的 选择 到 底 对 不 对 呢 ? 可 以 验证 一 下 ， 在 该 项 目的 任意 一 级 


目录 下 执行 命令 : 


scrapy shell 


http://theater.mtime.com/China Hubei Province Wuhan Wuchang/4316/ 


执行 结果 如 图 16.15 所 示 。 


:51+0800 
:51+0800 
+0800 


+0800 
:51+0800 


[scrapy] INFO: Enabled item pipelines: TodaymoviePipeli 
[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6 
[scrapy] DEBUG: Web service listening on 127.0.0.1:6080 


[wuHanMovieSpider] INFO: Spider opened 
[wuHanMovieSpider] DEBUG: Crawled (200) <GET http://the 


ater.mtime.com/China Hubei Province Wuhan Wuchang/4316/> (referer: None) 
[s] Available Scrapy objects: 
[s] crawler <scrapy.crawler.Crawler object ac Ox7fadeeSf7d10> 


Is] item {} 


request <GET http://theater.mtime.com/China Hubei Province Nuhan Wuchan 


~ 


response <200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan 


/4316/> 


[sJ settings scrapy. Settings Settings object at DOXTESSEEIECS5OY 
[s] spider <WuhanmoviespiderSpider 'wulHanMovieSpider' at Ox7fageda35610> 


[s] Useful shortcuts: 


[s] shelp() Shell help (print this help) 
[s] fetch(req or url) Fetch request (or URL) and update local objects 
[s] view(response) View response in a browser 


In [2]:; 


response 后 面 的 200 是 网 页 返 


图 16.15 scrapy shell 


Ee 


m 


代码 ， 代 表 获 取 数 据 正 常 返回 ， 如 果 出 现 


就 要 仔细 检查 代码 了 。 现 在 可 以 放心 验证 了 ， 执 行 命令 : 


selector = response.xpath('/html/body/script[3]/text()') [0] .extract () 


print (selector) 


执行 结果 如 图 16.16 所 示 。 
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他 的 数字 ， 


哪 king@debian8: ~/code/scrapy/todayMovie/todayMovie 


Ts] response <200 http://theater.mtime.com/China Hubei Province Wuhan Wuchan A 


settings <scrapy.settings.Settings object at Ox7f216be66668> 
spider <WuhanmoviespiderSpider ‘wulanmovieSpider' at 0x7f216b9d7e48> 

{s] Useful shortcuts: 

ls] fetch(urll, redirect-True]) Fetch URL and update local objects (by default 

redirects are followed) 

ls] fetch(req) 

= 


shelp() 
iewlresponse} 


Fetch a scrapy.Request and update local object 


Shell help (print this help) 
a browser 


: selector = response.xpath("/htmi/body 


: print(selector) 


timesScriptVariables = {" 


"武汉 市 武昌 区 水 果 湖 楚 河 汉 


ti 3 
、583 路 、64 路 道 白 己 街 站 ","movieco 
", "today"™ 8-01-29", "value 
ttp://theater. 


mtime.com/China_Hubei_Province Wuhan_Wuchang/4316/?d=20180129"}, ("date":new Date 
{"February, 2 2018 00:00:00"),"dateUrl":"http://theater.mtime.com/China_Hubei_Pr 
ovince Wuhan Wuchang/4316/?d"~20180202"), ("date":new Date("February, 14 2018 00:0v 


选择 器 的 选择 没 问题 。 之 后 


图 16.16 验证 选择 器 
回头 看 看 wuHanMovieSpider.py 中 的 parse 函数 就 很 容易 理解 


了 。 代 码 第 17、18 行 先 用 re 模块 将 json 字符 串 从 选择 器 的 结果 中 过 滤 出 来 。 第 19 行 定 义 一 
个 items 的 空 列表 (因为 返回 的 item 不 止 一 个 ， 所 以 只 能 让 item 以 列表 的 形式 返回 ) 。 第 21 


行将 json 字符 串 转 换 成 了 一 


个 Python 字典 格式 。 第 22 行将 item 初始 化 为 一 个 


TodaymovieItem() 类 (从 todayMovie.items 中 初始 化 过 来 的 ) 。 第 23~26 行将 已 经 初始 化 类 
item 中 的 movieName 项 赋值 。 第 27 行将 item 追加 到 items 列表 中 。 最 后 返回 items。 ( 注 
意 ， 这 里 返回 的 是 items， 不 是 item。) 


16.3.5 ”保存 息 取 的 结果 
疏 取 结果 保存 在 pipelines.py 中 。 修 改 pipelines.py， 内 容 如 下 : 


01 法 =*= Coding: atE=8 
02 


Es 


03 # Define your item pipelines here 


04 4# 


05 # Don't forget to add your pipeline to the ITEM PIPELINES setting 


06 # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html 


07 
08 import codecs 


09 import time 


10 

11 class TodaymoviePipeline (object): 

12 def process item(self, item, spider): 

be today = time.strftime('%Y-%m-%d', time.localtime()) 
14 fileName = "武汉 汉 街 万 达 广场 店 " + today + '.txt' 

15 with codecs.open(fileName, ‘a+', ‘utf-8') as fp: 
16 fp.write('Ss %s $s $s \r\n' 
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17 $(item['movieTitleCn'], 
18 Item['movieTitleEn']yv 
19 item{[ "director’'], 

20 item['runtime'])) 


21 3# return item 


这 个 脚本 比较 简单 ， 就 是 先 把 当日 的 年 月 日 抽取 出 来 当成 文件 名 的 一 部 分 ， 再 把 
wuHanMovieSpider.py 中 获取 项 的 内 容 输入 到 该 文件 中 。 在 这 个 脚本 中 ， 需 要 注意 两 点 : 


(1) open 函数 必须 是 以 追加 的 形式 创建 文件 ， 也 就 是 说 open 函数 的 第 二 个 参数 必须 是 
a， 也 就 是 文件 写 入 的 追加 模式 append。 因 为 wuHanMovieSpiderpy 返回 的 是 一 个 item 列表 
items， 所 以 只 能 一 个 一 个 item 地 写 入 。 如 果 open 函数 的 第 二 个 参数 是 写 入 模式 write， 造 成 
的 后 果 就 是 先 控 除 前 面 写 入 的 内 容 再 写 入 新 内 容 ， 一 直 循环 到 items 列表 结束 ， 最 终 文 件 里 
只 保存 了 最 后 一 个 item 的 内 容 。 
(2) 保存 文件 中 的 内 容 若 含有 汉字 则 必须 转换 成 utf8 码 。 汉 字 的 unicode 码 保存 到 文件 
中 是 无 法 被 我 们 识别 的 ， 所 以 转换 成 可 以 被 识别 的 utf8。 
到 了 这 一 步 ，Scrapy 爬虫 基本 已 完成 了 。 回 到 scrapy.cfg 文件 的 同 级 目录 下 《实际 上 只 
要 是 在 todayMovie 项 目下 的 任意 目录 中 执行 即 可 ， 之 所 以 在 这 一 级 目录 执行 纯粹 是 为 了 美 
观 ) ， 执 行 命令 : 
scrapy crawl wuHanMovieSpider 


结果 却 什么 都 没有 ? 为 什么 呢 ? 


16.3.6 “分派 任务 

先 看 看 settings.py 的 初始 代码 ， 它 仅 指定 了 Spider 疏 虫 的 位 置 。 再 看 看 写 好 的 Spider 的 
虫 的 开头 ， 它 导入 items.py 作为 模块 ， 也 就 是 说 现在 Scrapy 已 经 知道 了 疏 取 哪些 项 目 、 疏 取 
方法 。pipelines 说 明了 怎样 处 理 最 终 的 爬 取 结 果 。 唯 一 不 知道 的 就 是 由 谁 来 处 理 这 个 怜 行 结 
果 ， 这 时 就 该 setting.py 出 点 力气 了 。setting.py 的 最 终 代码 如 下 : 


DL = COdings utf=8. =*= 


02 

03 # Scrapy settings for todayMovie project 

04 # 

05 # For simplicity, this file contains only the most important settings by 
06 # default. All the other settings are documented here: 

07 3# 

08 # http://doc.scrapy.org/en/latest/topics/settings.html 
09 3# 

10 

11 BOT NAME = "todayMovie' 

12 
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13 SPIDER MODULES = ["todayMovie-spiders'"'] 

14 NEWSPIDER MODULE = "todayMovie-spiders'" 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the 
user-a gent 

17 #USER AGENT = 'todayMovie (+http://www.yourdomain.com)' 

18 

19 ### user define 

20 ITEM PIPELINES = {'todayMovie.pipelines.TodaymoviePipeline':300} 


跟 初始 的 settings.py 相 比 ， 就 是 在 最 后 添加 了 一 行 ITEM_PIPELINES。 它 告诉 Scrapy 最 
终 的 结果 是 由 todayMovie 模块 中 pipelines 模块 的 TodaymoviePipeline 类 来 处 理 的 。 
ITEM _ PIPELINES 是 一 个 字典 (字典 的 key 用 来 处 理 结 果 的 类 ， 字 典 的 value 是 这 个 类 执行 
的 顺序 ) 。 这 里 只 有 一 种 处 理 方式 ，value 填 多 少 都 没 问 题 。 如 果 需 要 多 种 处 理 结果 的 方法 ， 
就 要 确立 顺序 了 : 数字 越 小 的 越 先 被 执行 。 

现在 可 以 测试 这 个 Scrapy 怜 虫 了 ， 还 是 执行 命令 : 

scrapy crawl wuHanMovieSpider 


ls 


cat atxe 


执行 结果 如 图 16.17 所 示 。 


‘scheduler/enqueued’: 1, 
"scheduler/enqueued/memory': 1, 
'start_time': datetime.datetime (2017, 11, 28, 4, S51, 19, 969087)} 
:20+0800 [wuHanMovieSpider] INFO: Spider closed (finished) 
“~/code/crawler/scrapyProject/todayMovies 1s 
Sa 


导 梦 环 游记 coco 李 - 昌 交 至 坷 109 分 名 
总 捕 ” Manhunc 吴 字 森 ”107 分 钟 
正义 联盟 Justice League 扎 克 - 施 奈 德 ”120 分 钟 
目 爆 者 Explosion 常 征 ”105 分 钟 
企 理 笔记 Interence Notes 张 天 和 辉 ”ss 分 钟 
年 华 Angels Wear White 文 “107 分 钟 
网 杀 盖 世 太保 ”aaha 午 德 里 克 - 吉 门 内 兹 ss 分 钟 ( 中 国 )1120 分 钟 (3 
不 成 问题 的 问题 Mr.No Problem 梅 峰 ” 133 分钟 
梦 环 游记 ”coco 李 - 昌 克 里 奇 ”109 分钟 
中岳 “Manhunt ”吴宁 森 ”107 分 钟 
正义 联盟 Justice League 扎 克 - 施 奈 德 120 分 钟 
Bi 爆 者 Expiosion 常 征 105 分 钟 
全 运 笔记 Inference Notes 张 天 辉 ”95 分 钟 
式 年 华 “angels Wear White 文 受 107 分 钟 
出 杀 盖 世 太保 “HHhH 赛 德 里 克 - 训 门 内 兹 99 分钟 ( 中 国 〉1120 分 钟 法国)| 
怀 成 问题 的 问题 Mr.No Problem 梅 峰 ” 133 分钟 


图 16.17 Scrapy 息 虫 结果 


这 个 简单 的 候 虫 就 介绍 到 这 里 了 。 从 这 个 项 目 可 以 看 出 ，Scrapy 疏 虫 只 需要 顺 着 思路 照 
章 填空 即 可 。 如 果 需 要 的 项 比较 多 、 获 取 内 容 的 网 页 源 比较 复杂 或 者 不 规范 ， 可 能 会 稍微 及 
烦 一 点 ， 但 处 理 起 来 基本 上 都 是 大 同 小 异 的 。 与 前 面 的 re 爬虫 相 比 ， 越 复杂 的 爬虫 就 越 能 体 
现 Scrapy 的 优势 。 
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本 章 小 结 


本 章 详细 介绍 了 Scrapy 疏 虫 框架 的 使 用 ， 演 示 了 Scrapy 疏 虫 疏 取 网 页 的 过 程 。 从 使 
的 难度 来 说 ，Scrapy 可 以 算得 上 是 简单 的 仆 虫 了 ， 简 单 到 只 需 做 填空 题 就 能 得 到 数据 ， 而 且 
也 能 很 好 地 支持 数据 怜 取 的 特殊 要 求 。 


280 


